前言

Sora横空出世之后,李一舟上了热搜。一张中美“两大AI巨头”图片在网上热传,图中二人分别为OpenAI的首席执行官萨姆奥特曼和李一舟,这张图疑似“内在”李一舟。有媒体引用一则数据称,“据飞瓜数据显现,李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套,销售额约5000万。”近几天,关于李一舟的争议可谓一波接一波。

5分钟带你了解Sora,为何李一舟能借此爆火
有人说:“我国任何一家估值几十亿上百亿的大模型公司,2023年的营收水平大概率比不过这位抖音卖课的李博士,有点魔幻。”

普通人学习AI、运用AI的门槛真的那么高吗?不见得。原因种,种AI的热潮让群众盲目,落后就要挨揍的观念也是原因之一,而且,从哪里获取AI、如何学习AI就像寻宝一样困难。

初识Sora

继ChatGpt3.5到4.0PlusOpenAI 在2024年2月16日正式宣告推出文本生成视频的大模型 Sora:

官网:openai.com/sora

5分钟带你了解Sora,为何李一舟能借此爆火

OpenAI的官网介绍称,运用这款模型能够用文本生成长达一分钟的视频,视频可具有多个人物、特定类型的运动、精确主题和布景细节等杂乱场景。

sora原理

Sora要解决的使命其实非常好理解,便是给定一段文本,模型需求依据该文本生成相应的视频,简略说便是text-to-video(t2v)。t2v本身并不是一个新问题,许多厂商都在研究t2v模型,只是当前的t2v模型生成的视频遍及质量较差,很难到达工业应用级别。在Sora呈现前咱们的遍及认知是:t2v是一个很难的使命,工业级别t2v模型(或者说能真实有用的t2v模型)短时刻内应该很难完结。然而,OpenAI又又又一次打了所有人的脸,Sora的发布意味着,这一天现已来了。

依据Transformer架构

简略描绘Sora练习建模进程,便是:将原始视频经过一个视觉编码器(visual encoder)编码到隐空间(latent space)形成隐时空块(spacetime latent patches),这些隐时空块(结合text信息)经过transformer做diffusion [2, 3, 4]的练习和生成,将生成的隐时空块再经过视觉解码器(visual decoder)解码到像素空间(pixel space)。所以整个进程便是:visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

分散模型和练习稳定性

Sora模型选用了分散模型的办法,与传统的GAN模型比较,具有更好的生成多样性和练习稳定性。分散模型经过逐步消除噪声来生成视频,这样能够有效地提高生成的视频质量。一起,经过选用分散模型,Sora还能够生成愈加逼真的视频场景。

Sora能够灵敏地选用不一起长、分辨率和长宽比的视频

OpenAI发现之前的办法大多选用固定尺寸的视频(比方4s的256×256视频)去练习模型,和实际中恣意长度、长宽比有较大gap,而选用原始尺寸的视频练习模型效果更好。得益于Sora选用的transformer结构,Sora能够输入恣意多个visual patches(初始为noise patches),即可生成恣意尺寸的视频。

生成视频的数据处理和紧缩

生成视频需求处理很多的数据,关于这一问题,Sora模型选用了数据处理和紧缩的技术。经过对视频数据进行处理和紧缩,Sora能够在保持视频质量的一起,减少存储空间的占用。

视频质量和逼真度

Sora模型在生成视频的进程中,注重保持视频质量和逼真度。经过选用Transformer架构和分散模型的办法,Sora能够生成愈加连贯、且具有很高逼真度的视频场景。这使得Sora在应用领域具有广泛的潜力,比方能够用于影视制作、游戏开发等方面。

参考链接:www.openai.com/research/so…

sora著作展示

事例1:

1.Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译:一位时髦的女性走在东京街头,周围是温暖闪亮的霓虹灯和生机四射的城市标识。她穿戴一件黑色皮夹克,一条长长的红色连衣裙,搭配黑色靴子,并背着一个黑色手提包。她戴着墨镜,涂着红色口红。她步履自信,悠然自得地走着。街道潮湿而反光,呈现出丰富多彩的灯火的镜面效果。许多行人在街上走动。

5分钟带你了解Sora,为何李一舟能借此爆火

事例2:

2.Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

翻译:几只巨大的长毛猛犸象踏过一片洁白的草地,它们长长的毛发在微风中悄悄飘动着,远处覆盖着雪的树木和宏伟的雪山,午后的光线下有些薄云,太阳高悬在远方,营造出温暖的光芒。低视点的拍摄视角令人惊叹,捕捉到了这些大型毛烘烘的哺乳动物,画面景深感激烈。

5分钟带你了解Sora,为何李一舟能借此爆火

事例3:

6.Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

翻译:摄像机跟从一辆白色旧式SUV,顶部有黑色行李架,它加速经过一条峻峭的土路,周围是松树,地形峻峭,车轮卷起了尘土,阳光照射在SUV上,它沿着土路奔驰,给场景增添了温暖的光芒。土路在远处悄悄弯曲,看不到其他车辆。路边的树是红杉,绿色的植物装点其中。轿车从后方的镜头中轻松地跟从着曲线,使其看起来好像在崎岖的地形中轻松驾驶。土路周围是峻峭的山丘和山脉,天空晴朗,偶有薄云飘过。

5分钟带你了解Sora,为何李一舟能借此爆火

Sora应用前景

  • 视频创造:用户能够依据文本生成高质量视频;
  • 扩展视频:能够在给定的视频或图片基础上,继续向前或向后延申视频;
  • Video-to-video editing:例如将SDEdit [7]应用于Sora,能够很容易改动原视频的风格;
  • 视频连接/过渡/转场:能够将两个视频巧妙地融合到一起,运用Sora在两个输入视频之间逐步进行插值,从而在具有完全不同主题和场景构成的视频之间创立无缝过渡;
  • 文生图:图画能够视为单帧的视频,故Sora也能完结文生图。

能够预见的是,当sora正式敞开之后,短视频平台将会涌现非常多的sora生成的视频,又会有许多普通人收获一桶金。

5分钟带你了解Sora,为何李一舟能借此爆火

Sora带来的行业巨震

  • 短视频内容创造可能进入新的时代:Sora能够提供丰富的视频素材;
  • 视频剪辑和修改:Sora具备相关应用才能;
  • 更逼真的数字人:用户能够得到自己的“抱负型”;
  • 娱乐化:从图画一键生成视频;
  • 游戏行业:游戏引擎受到Sora应战;
  • 图形学:未来可能不复存在。

sora运用教程

Tips:

现在 OpenAI还未敞开 sora 运用,还在内测阶段,依据文生图模型 DALLE 事例,一定是先给 ChatGPT Plus 付费用户运用,需求注册或者晋级 GPT Plus 能够看这个教程: 一键晋级 ChatGPT Plus 喂饭教程

运用Sora前的准备工作

在开端之前,保证您现已具有了OpenAI账目,并获得了Sora的拜访权限。准备好您想要转化成视频的文本描绘,记住越详细越好。

(没有chatgpt账号的朋友传送门:www.chatgptbom.com/new-chatgpt…)

Sora运用步骤一:文本描绘

1.描绘视频内容:首先,您需求对想要在视频中展示的内容进行明晰的描绘。这包括场景、人物、动作以及全体基调。提供的细节越详细,Sora就能更好地理解您的愿景。

2.完结文本描绘和自定义设置:在完结文本描绘后,您能够点击“生成视频”按钮。Sora将开端处理您的恳求,这个进程可能需求几分钟时刻。

Sora运用步骤二:生成视频

预览以及修改视频:视频生成后,您能够对其进行预览。如果需求,您还能够灵敏地修改和更改生成的场景,以保证最终视频符合您的期望。

Sora 常见问题

现在的视频生成模型遍及生成的motion都不太好,最简略的比如便是“人走路”,大部分模型无法生成连贯的、长时刻的、合理的人行走的进程。而Sora生成的成果在连贯性、合理性上比较之前的模型都有着断代的领先。那到底是什么促进了这样的成果呢?是模型尺寸的scale up吗?需求scale up到什么size?仍是数据的搜集和清洗呢?以及要做到什么程度呢?

它不能精确地模拟许多基本相互作用的物理进程,例如玻璃破碎。其他交互进程(例如吃食物)也不总是能正确猜测。咱们在登陆页面中列举了模型的其他常见故障模式,例如长时刻样本中呈现的不连贯性或目标的凭空呈现。”

信任上述问题会在sora正式发布时得到解决。