日报&周刊合集 | 生产力东西与行业运用大全 | 点赞重视谈论托付啦!
近期大模型更新消息一览:Sora 影响涟漪犹在,Mistral 无愧欧洲 LLM 之光
法国大模型草创公司 Mistral AI 发布 Large 和 Small 两款大模型**
体会网址 chat.mistral.ai/chat
继推出 Mixtral 8x7B、Mistral Medium 后,Mistral AI 这次发布了功用比肩 GPT-4 的旗舰大模型Mistral Large,以及针对低延迟和本钱优化的新模型 Mistral Small。
依据 Mistral AI 官网的消息,Mistral Large 在行业内公认的基准测验中表现超卓,仅次于 GPT-4,成为经过 API 供给的全球第二顶尖模型。
Mistral Large 调用办法
Plateforme:Mistral AI 在欧洲根底设施上安全托管的接入点,使开发者能够运用广泛模型范围创立运用和服务
Azure:在 Azure AI Studio 和 Azure 机器学习上,供给与 API 同样流畅的用户体会 (表示现已与 Microsoft 开展协作)
自我布置:模型可布置于客户自己的环境中,适用于最灵敏用例,并供给模型权重访问
Pika Labs 正式上线唇形同步功用,生成视频里的人物能说话了
twitter.com/pika_labs/s… | 观看视频
目前对 Pro 用户敞开,体会地址:pika.art/home | 一线测评
2月27日,Pika 官推正式宣布上线 Lip Sync (唇形同步) 功用,也便是 Pika 生成的视频中,人物说话时口型和声音能对上,直接一步到位。这样,生成者就能够决议视频中的人物说什么话、具体用什么风格说话了!
阿里巴巴视频生成结构 EMO,音频+图像即可生成视频,面部表情和口型都能对的上
阿里巴巴提出了一个音频驱动肖像视频生成结构EMO,只需求输入一张参考图像和语音音频 (例如说话和歌唱),就能够生成具有面部表情、各种头部姿态的视频,而且还能够依据输入视频的长度生成恣意时长的视频。
有了这个模型,那让图片歌唱或说话就彻底不成问题啦! 链接给出的例子显现,不同言语、不同风格、快慢节奏等等,EMO 都能够处理得很好!
一个小插曲是,EMO 今天被AI社区里的同伴们骂惨了,首要原因是演示作用如此炸裂但 GitHub 项目却是空的… 有点「空口无凭」的等候落差感
可是这个空GitHub 现已1K Star 了而且还在快速增长中!不来凑个热烈嘛 github.com/HumanAIGC/E…
Google DeepMind 发布 Genie:110 亿个参数,依据图片和提示词生成 2D 游戏
Sora 平地炸响一声雷后,Google 快速跟上了节奏,发布了可动作操控的国际模型 Genie,能够依据图像和提示生成可操作的二维国际。简单说便是,Genie 既能够将任何图像转换成可玩的二维国际,也能够让人类规划的草图等创作绘声绘色。
而关于 Sora 和 Genie 的区别,大约能够这样了解 (来自知乎答主 @普通):
Sora做的是:你给他一个prompt,比方生成一段在森林里顶蘑菇的视频,然后它就会在一段时刻内给你供给一个顶蘑菇的视频。
Genie做的是:你给他一张顶蘑菇的截图,给你一个游戏手柄,然后图片会动起来,动的逻辑会跟你手柄的操作逻辑是共同的。
这俩有本质上的不同,Sora是端到端的,你供给prompt,它供给视频,中间没有交互;Genie供给了交互的机会,理论上你不停,储存满足,电力不停,那视频就会一直持续。
这也是Genie名字的来历Generative Interactive Environment(生成式可交互环境)。
在巴黎赛纳河左岸与梵高聊谈天:Hello Vincent!
弥补一份背景常识:奥赛博物馆(Muse d’Orsay)坐落法国巴黎赛纳河左岸,具有国际上最丰厚的印象派和后印象派艺术收藏品,收藏精品包含加雷特磨坊舞会、梵高的自画像以及莫奈的蓝色睡莲等等
前段时刻,法国奥赛博物馆举办了「Van Gogh in Auvers-sur-Oise (梵高在奥弗尔-苏瓦)」主题展,主办方在出口处设置了一个「Hello Vincent」智能运用程序,能够让参观者经过麦克风与梵高进行对话互动。
正如视频所示,梵高坐在他的「Wheatfield with Crows (麦田上的鸦群)」画作前,一边说话一边运动着手臂和膀子,回答提出的问题。
想象一下!刚看完主题展就能够与画家「本人」进行沟通!这沉溺感!这冲击力! 观看视频
进一步查找了这款运用的研制公司 Jumbo Mana,他们在推上发布「Hello Vincent」依据梵高约 900 信件训练而成,并经过多幅梵高自画像生成了逼真的 3D 人物形象。
感觉这类运用场景很靠谱啊!把 Charater.ai 里受欢迎的对话模式搬迁到了线下,而且就设定在博物馆展览刚刚结束、参观者意犹未尽的时分。是一次既风趣又有教育含义的测验哇~
Image to Music:运用AI把图片生成音乐 (可免费体会)
Image to Music 是一个免费的AI东西,能够依据上传的图片生成符合调性的音乐片段 (10s左右)。
官网支撑免费体会哦!甚至不用登录 (需求魔法)!上传图片,从 MAGNet、AudioLDM-2、Riffusion、Mustango、MusicGen 几个模型中挑选一个,然后等候 1-2 分钟就能够听音乐啦!!
看网站弹框显现的进程消息,应该是先用 image caption 了解图像,然后生成与音乐相关的提示词,最后生成音乐片段。
用上方图片这个「electronic music」主题的图片试了一下,还是挺精确的!提示词精确捕捉到了风格,音乐片段也是动感十足 | 检查图片并收听音乐片段
零一万物黄文灏:没有做出 Sora 的几点反思 & Sora之后视频生成怎么做
zhuanlan.zhihu.com/p/683185877
弥补一份背景:黄文灏是零一万物的技能副总裁及Pretrain负责人,曾先后任职于微软亚洲研究院和智源研究院;他的知乎账号很活跃,推荐 Follow~
红博士在 去魅Sora: OpenAI 鲜肉小组的小试牛刀 这篇文章中,依据技能报告和揭露信息猜想了 Sora 的算法结构,而且以业内视角分析了背面核心人员的开展途径。文章把专业和通俗两个方面统筹的十分好,推荐阅读!
跟上 Sora 进展没多难
黄文灏在文章中也表达了和红博士相同的观点:仔细看 Sora 的技能报告会发现,其实没太多东西,跟上 Sora 的进展也没有多难
Sora = Magvit + DiT + NaViT + Video Caption,技能上没有太多的立异,但工程上做了许多的作业
要给年轻人满足的算力,这个是现在大模型公司最难决策的事,找到那些年轻人,解决安排问题
Sora 不是国际模型,不一定用了UE数据
没有做出Sora的几点反思
零一万物从去年10月开始做视频生成,在技能道路挑选上与 Sora 根本共同,但成果和Sora有一些距离。那为什么又是 OpenAI先做出了 Sora 呢?
技能开展的速度比想象中快许多。在视频生成技能范畴,原预计技能迸发需求一年时刻,但实际开展速度远超预期,仅三个月就呈现了Sora。这表明在技能预判时,应该愈加激进地缩短预期时刻,以保持竞争力
需求把方针定高两个台阶。由于对技能老练速度的低估,导致方针设定没有满足前瞻性。在技能快速开展的背景下,应将方针设定得更高,直接以逾越当时领先者为方针,而不是逐渐追逐
做更多「由于信任所以看到」的事。在技能开展中,应更多地依据信念采纳行动,而不是只是依据现已看到的成果。
Sora之后视频生成怎么做
途径一:用最快的速度去复现Sora。当有人给出了一个办法能够做到很高的水平的时分,即使中间缺乏许多细节,follow一条有大体结构的路,把里边的细节一点点补上
途径二:有更好的视频生成计划吗?如果没有,就直接scale up,跳过复现Sora的阶段。如果有,那这个计划是什么呢?
ELAD GIL 关于大言语模型 (LLM) 的一千零一个问题:带你纵览AI全局
文章作者是一位大佬:Elad Gil 是一位十分超卓的企业家和出资者,曾任职谷歌并创立了移动团队,兴办的 Mixer Labs 被 Twitter 收买后担任 Twitter 副总裁;他也是许多知名科技公司的出资人和参谋,例如 Airbnb、Figma、Gitlab、Notion、Pinterest、Stripe,以及最近大火的Character、Mistral,Perplexity,Pika 等等。
Elad Gil 这篇「Things I Don’t Know About AI」文章,把 AI 拆成了「Semiconductors (半导体)」「Foundation models (根底模型)」「Infra (根底设施)」「B2B」「Consumer (顾客)」5个板块,并对各部分提出了自己的判别&困惑,并进行了根本解说。
来!让咱们跟随 Elad Gil,一起进行一场沉溺式考虑!
Elad Gil 的几个根底判别 (也便是首先要达到的一致)
大言语模型只分类两类:最先进的前沿大模型(们) & 其他大模型,而且前沿 LLMs 会构成一个寡头商场 (由于大模型实在太太太烧钱了)
前沿 LLMs 的规划不断添加,训练本钱也随之增高,而这些资金的首要来历是云服务商和大型科技公司 (如 Microsoft、Amazon 、Google),或许体现国家毅力 (如阿联酋 Falcon);英伟达 NVIDIA 对根底模型公司的出资规划并不高
尽管云服务商是资金来历的大头,但这与其盈利规划比较也不算什么 (例如,Microsoft 出资 OpenAI 100 亿美元,只需求6个星期就能挣回来)
Questions on LLMs
Question:云服务供给商是否在经过其供给的核算或本钱规划,制造少量玩家的王者地位,并经过这种办法确定寡头商场?云服务供给商是 LLM > 根底模型的首要赞助者,其资金支撑或许会对商场动态产生歪曲效应,例如新进入者会因本钱和人才不足而出局,或许云渠道借助大模型实现更高的收入
Question:开源模型是否会推进AI经济从根底模型转向云服务?Meta是否会持续赞助开源模型?如果是,Llama-N 能否追逐到最前沿?
Question:咱们怎么看待模型的速度、价格与功用之间的关系?模型的价值取决于多种因素,高功用但速度较慢的模型、小型但快速且本钱低廉的模型,也各自有其商场定位。
Question:根底模型的架构将怎么演化?具有不同架构的 Agentic Model 是否有开展潜力?其他形式的记忆和推理何时能发挥作用?
Question:政府是否支撑 (或指导其购买) 地区AI获胜者?政府是否会像航空航天范畴的波音/空客那样,对本地模型进行差异化支出?政府是否愿意支撑反映本地价值观、言语等的模型?
Question:我国会产生什么?我国大模型或许会得到本地科技巨子 (如腾讯、阿里巴巴、小米、字节跳动) 的支撑,政府也会持续经过监管和防火墙来支撑本地AI公司的开展;我国开源大模型的开展也值得注意 (如 阿里巴巴 Qwen 排名很高)
Question:X.ai (马斯克的AI公司) 会产生什么?开展状况尚不清晰,很或许成为一个不确定因素
Question:Google 前途怎么?Google具有强壮的核算能力、规划和人才,能够快速推进AI技能的开展,在AI范畴的潜力巨大
Questions on Infra Companies
AI Infra 最大的不确定性来自 AI Cloud Stack 及其开展途径,由于草创公司与大型企业对AI云服务的需求差别巨大:草创公司更愿意选用新的云服务商和东西 (如Anyscale、Baseten、Modal、Replicate、Together等),而大型企业的定制化需求也带来了更多敞开性问题
Question:当时的AI云公司是否需求为大型企业构建他们产品的本地布置 / BYOC / VPN版本?
Question:选用AI云有多少是出于GPU限制 / GPU套利?云服务商遍及缺乏GPU,因此企业正在争相寻觅满足的 GPU 来满足自己的需求,当然这关于具有 GPU云的草创云服务商是好消息
Question:GPU瓶颈何时才能结束?这对新的AI云供给商有何影响?当 GPU 不再是限制,那么具有更多东西和服务的云服务商更简单存活下来
Question:新的AI ASIC (如 Groq) 将怎么影响AI云?
Question:还有什么会被整合到AI云中?它们是否会穿插销售 embedding 和RAG?持续更新?微调?其他服务?这对数据标注公司或其他有堆叠服务的公司有何影响?哪些服务会直接整合到模型供给商,哪些会经过云服务进行整合?
Question:AI云公司有哪些商业模式?面向草创公司,更适合「GPU only」的商业模式,由于他们需求的云资源很少;面向大中型企业,更适合供给开发者东西、API端点、专业硬件等
Question:新的AI云会有多大规划?会成为 Heroku、Digital Ocean、Snowflake、AWS 这样的庞然大物嘛?这类公司的产出规划和运用规划是多少?
Question:随着超长上下文窗口模型的呈现,AI仓库将怎么演化?怎么看待上下文窗口与提示工程、微调、RAG和推理本钱之间的相互作用?
Question:FTC (和其他监管机构) 阻止并购对商场有何影响?在一个活跃对立科技并购的政府下,人们怎么看待退出?AI云自身是否应该在彼此之间整合以整合份额和服务供给?
Questions on Apps
15个月前 ChatGPT 面世;距离模型&技能最近的AI研究员和 infra 工程师更能感知其带来的革命和转变,一般阅历 9-12个月做出辞去职务创业的决议;辞去职务与创业头脑风暴又会花去几个月的时刻 → 所以,咱们很快就能够看到一波运用构建者集中呈现
Question | B2B:在新兴 B2B 运用浪潮中,需求要点重视哪些公司和商场?与草创公司比较,现有大型企业的优势体现在哪些方面?
Question | Consumer:最早的AI产品是面向C端顾客的,例如 ChatGPT、Midjourney、Perplexity、Pika等。可是为什么AI生态系统中2C产品并不多呢?是由于上面提到的时刻延迟吗?
Question | Agents:Agents 能够产生许多许多的作业。那么,哪些是强壮的垂类产品的全国,哪些又是草创公司能够发挥的空间呢?
微软面向初学者的生成式AI课程(第2版),添加了 RAG、AI Agents 和 Fine-Tuning 等内容
微软去年推出了「Generative AI for Beginners」课程,12末节,帮助十分多的学习者把握了生成式AI的根底常识和开发技能。
前几天,这门课程更新了!官方发布了「Generative AI for Beginners (Version 2)」,不仅对已有章节的概念、作业等进行了更新,还添加了近期热度十分高的 RAG、AI Agents、Fine-Tuning LLMs 等6个新的章节。
课程章节分类「Learn (常识学习)」「Build (动手实践)」两种类型,内容则涵盖了视频介绍、图文解说、示例代码、课程作业、拓宽资源等部分,依旧是学习生成式人工智能根底常识和运用开发技能的首选入门课~
以下是课程核心内容的介绍,有感兴趣的内容,能够开始学习啦:
0. Course Setup
课程设置
[Learn] 怎么设置你的开发环境
1. Introduction to Generative AI and LLMs
生成性人工智能与大型言语模型简介
[Learn] 了解生成性人工智能是什么以及大型言语模型 (LLMs) 怎么作业
2. Exploring and comparing different LLMs
探索和比较不同的 LLMs
[Learn] 怎么为你的用例挑选适宜的模型
3. Using Generative AI Responsibly
负责任地运用生成性人工智能
[Learn] 怎么负责任地构建生成性人工智能运用
4. Understanding Prompt Engineering Fundamentals
了解提示工程根底
[Learn] 实践提示工程最佳实践
5. Creating Advanced Prompts
创立高档提示
[Learn] 怎么运用提示工程技能以改善你的提示成果
6. Building Text Generation Applications
构建文本生成运用
[Build] 运用 Azure OpenAI 构建文本生成运用
7. Building Chat Applications
构建谈天运用
[Build] 高效构建和集成谈天运用的技能
8. Building Search Apps Vector Databases
构建查找运用向量数据库
[Build] 运用嵌入 (Embeddings) 查找数据的查找运用
9. Building Image Generation Applications
构建图像生成运用
[Build] 一个图像生成运用
10. Building Low Code AI Applications
构建低代码人工智能运用
[Build] 运用低代码东西构建生成性人工智能运用
11. Integrating External Applications with Function Calling
与外部运用集成经过函数调用
[Build] 什么是函数调用及其在运用中的用例
12. Designing UX for AI Applications
为人工智能运用规划用户体会
[Learn] 在开产生成性人工智能运用时怎么运用用户体会规划准则
Version 2 新增内容
13. Securing Your Generative AI Applications
保护你的生成性人工智能运用
[Learn] 人工智能系统面对的威胁和风险以及保护这些系统的办法
14. The Generative AI Application Lifecycle
生成性人工智能运用生命周期
[Learn] 办理 LLM 生命周期和 LLMOps 的东西和目标
15. Retrieval Augmented Generation (RAG) and Vector Databases
检索增强生成 (RAG) 和向量数据库
[Build] 运用 RAG 结构从向量数据库检索嵌入的运用程序
16. Open Source Models and Hugging Face
开源模型和 Hugging Face
[Build] 运用 Hugging Face 上可用的开源模型构建运用程序
17. AI Agents
人工智能署理
[Build] 运用人工智能署理结构构建运用程序
18. Fine-Tuning LLMs
微调 LLMs
[Learn] 微调 LLMs 是什么、为什么以及怎么进行
感谢奉献一手资讯、资料与运用体会的 ShowMeAI 社区同学们!
◉ 点击 日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI范畴开展前沿,抓住最新开展机会!
◉ 点击 生产力东西与行业运用大全,一起在信息浪潮里扑腾起来吧!