昨晚,收到了导师发来的信息,问我,你怎么看Sora?
结果打开朋友圈发现票圈的老师们也都在转发Sora相关的内容。
Sora是继去年发布的聊天机器人ChatGPT引领新一轮人工智能浪潮之后,美国人工智能公司OpenAI于16日发布的全新的生成式人工智能模型,这意味着,继文本、图像之后,OpenAI将其先进的 AI 技术拓展到了视频领域。
OpenAI 亦表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。
Sora用使用Transformer架构,建立在DALL·E3和GPT模型之上,只要输入一句或寥寥几句描述画面情节的提示,就可以生成长达一分钟的有运动、多机位视频。相比业界水平,Sora将视频生成的时长一次性提升了15倍,直接迈过了市面上所有短视频的时长要求。
同时,Sora也带有世界模型的特质。世界模型不是AI视频生成的必须要素,却是这个领域较为高端的一个研究方向。
所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。世界模型会让AI视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。同时,世界模型也为生成式AI真正进入自动驾驶行业铺好了路。
OpenAI迈过文生文、chatbot时代,一拳打开新世界,不少人将其描述为“绝无仅有”和“游戏规则改变者”,对于传媒行业而言更是标志性的。
对于这个刷爆新传老师朋友圈的sora,对此你有何看法?这不仅是明年初试中的热门话题,能写的案例,更有可能会是我们复试中的关键一问。
PART/1 Sora是什么,很牛吗?
Sora在日语中是“天空”的意思,引申含义还有“自由”。
它作为一个AI视频模型,你光打一串文字,就能生成一个以假乱真的纯AI原创视频,除此之外,你还可以输入图片转成视频,用视频再转成新的视频。
仅仅只有AI生成视频样片以及技术论文的释出,Sora已经在传播层面引发“地震”,不少人高呼影视行业没出路了,有人甚至把美国电影工业的象征好莱坞改成了这样:
在Sora推出后不久,OpenAI发布了这款新工具的技术报告。在报告中,OpenAI首先重点介绍了如何将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练的方法,并对 Sora的能力和局限性进行了评价。
《每日经济新闻》记者对报告进行梳理,总结出了 Sora 的六大优势:
1.准确性和多样性:Sora 可将简短的文本描述转化成长达 1 分钟的高清视频(目前整个行业中所公布的单个连贯性视频的最大长度是16秒,行业的普遍水平是2-4秒之间,直接15倍)。另据 Medium,Sora 能够准确解释长达 135 个单词的长提示。
2.强大的语言理解:OpenAI 利用Dall·E模型的recaptioning(重述要点)技术,生成视 觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与DALL·E 3 类似,OpenAI 还利用 GPT 技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使 Sora 能够精确地按照用户提示生成高质量的视频。
3.以图/视频生成视频:Sora 除了可以将文本转化为视频,还能接受其他类型的输入提示, 如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于 DALL·E 2 和 DALL·E 3 的图像生成的 demo 视频。这不仅证明了 Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。
4.视频扩展功能:由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现 有视频。作为基于 Transformer 的扩散模型,Sora还能沿时间线向前或向后扩展视频。
5.优异的设备适配性:Sora 具备出色的采样能力,从宽屏的 1920x1080p 到竖屏的 1080×1920,两者之间的任何视频尺寸都能轻松应对。这意味着 Sora 能够为各种设备生成与其原 始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora 还能以小尺寸迅速创建内容原型。
6.场景和物体的一致性和连续性:Sora 可以生成带有动态视角变化的视频,人物和场景 元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora可确保画面主体即使暂时离开视野也能保持不变。
在Sora前时代,如Runway、Pika等大量创业公司还在百家争鸣、平分秋色,而在Sora横空出世后,这些公司都瞬间黯然失色,如同“灭霸”级别。
人脸没有“恐怖谷”,物体运动轨迹自然,画面的流畅程度,就很像我们用手里的任何设备就能够拍出来一样,这让很多人振奋:“我真的看到了新工业革命的来临”。
虽然目前Sora只仅对一小部分用户开放还未开启公测,但因为它们之前所发布的视频都配有详细的Prompt文本,所以很多人也用这些同样的文本对其他工具进行了测试。
Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.(提示词:两艘海盗船在一杯咖啡中航行时的逼真特写视频)
在Pika所生成的视频并没有体现“航行中逼真特写”的关键内容,而Runway则没能理解关于“在一杯咖啡中航行”的重点描述。从视觉效果来看,Sora也更加准确地展现了提示词中航行激荡的情形。
多机位、自然融合两种完全不相干的场景、如果你对视频局部不满意(比如背景),你可以直接更换,此外,文生图、图片跳转动态视频……
不止于此,对于 Sora 的最大优势,360 集团创始人、董事长周鸿祎说,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”
他同时称:“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。”
技术更迭的太快了,人类学习沉迷于研究工具的速度几乎跟不上技术推陈出新的速度。
chatgpt还摸不到入口,pika刚知道是个什么东西,结果sora他就来了,该技术不仅展示了 AI 在理解和创造复杂视觉内容方面的先进能力,向着元宇宙不断迈进,更对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。
PART/2 警惕新纪元新闻重塑
在以 ChatGPT 为代表的生成式人工智能浪潮下,人类的文化地图与认知图景将面临何种颠覆的问题尚在思索之中,而媒介生态巨大变局下的信息秩序变革已然走入眼底。
罗伯特·希勒的“叙事经济学”中所描述的与现在有极大的相似性。只不过书中的叙事是自动化设备替代体力劳动,未来可能AI替代脑力劳动。
对于新闻行业积极方面来说:
01优化新闻生产流程,提高生产效率
一条新闻的产出包括新闻事件的“发生-采集信息-信息审查-完成新闻稿件或视-编辑审核-设计-发布传播”一系列操作,通过sora,再结合ChatGPT,一定程度上只需要做好“把关人”。
02深化新闻生产中的人机交互
通过应用深度学习技术、 Transformer 算法以及预训练模型,机器能够更好理解和处理人类语言和相关信息,促进媒体内容生产模式的变革。尽管人工智能可以提高内容生产的效率, 但在专业性、创造性、判断力和价值观等方面,机器仍难以匹敌人类的独特优势。因此,人工智能赋能新闻生产须始终保证人类的主导地位。
03提高传播质量增强用户活跃度
sora用于提供创作建议,为增添灵感,了解用户需求,扩宽思想区域,能够进一步增强用户的体验感和活跃度。
对新闻行业消极方面来说:
01传播风险与社会影响
虽然生成式人工智能在应用中的便利性较高,但存在生成看似真实而却具有欺骗性内容的问题,这将导致虚假信息的泛滥和传播。有学者认为,生成式人工智能可能被用来传播虚假信息或通过“算法歧视”产生有偏见的结论,从而威胁社会的安全和稳定。
02用户隐私与数据安全问题
国内多数媒体也都在使用新闻算法的个性化推荐机制,用户的年龄段、性别、关注点、个人爱好、浏览历史都被生成式人工智能作为数据进行算法推荐训练,从各类视频平台、社交软件再到新闻用户端,无一例外都面临着用户信息泄密的困境,sora无疑更强烈。
03新闻可信度与新闻伦理失范问题的考量
新闻传播伦理再面临挑战,真实是新闻的生命,但是更多高科技的出现,很多人模糊了真实与虚假的界限。Sora的应用,将进一步加剧当代社会的后真相状况,真实与虚拟的边界进一步模糊,甚至完全被消解。
PART/3 深度数字化后人类再见?
马斯克对于Sora更是在Twitter表示,“gg humans”,意思是人类再见。
人类真的要再见了吗?新闻领域一夜变天?
深度数字化是必然,未知的风险确实等待着人类,因为大部分工作本质上都是信息的输入和输出,当类似ChatGPT、Sora这样的硅基生命也掌握了这项“技能”,并且做的比人类更好时,硅基生命对碳基生命的压制就形成了。
碳基空间也会面临同样的问题,当类似美璟世界这样的硅基空间能够更高效的提供空间价值时,天平会逆转。因为硅基和碳基本质上是不同维度的两个世界,硅基世界还在疯狂进化,碳基世界只能原地等待,这也是人类焦虑情绪的主要来源。
但对于OpenAI来讲,更像是前锋,开山辟路是它的强项,开枝散叶应用的事情并不关注。
从单点的突破来看,Sora具有里程碑意义。但是从商业化需求和混剪工作流效率提升来看,Sora本身的价值还有待商榷。
不论之前生成视频技术的收敛,还是如今各ai模型几乎每个视频都能挑出错误,想靠60秒生成的视频成为下一个董宇辉、李佳琪并不现实,更别说制作长视频或者电影、电视剧了,距离真正落地还有漫长的路要走。
以短视频为例,是通过一遍遍修改提示词更加有效率,还是在视频剪辑软件里调整素材更快?
人类能够一点点按需修改,AI只能推翻重来。
很显然,我们期待Sora,不如期待比如在视频剪辑软件中尽早更新增加AI工具,从而商业上追求效率真正的提升。
sora“逆行”的跑步机
即使Sora全面放开使用,普通用户也难以做出如当前演示案例般的Demo。最终决定Sora是否能够普及的关键,是工具本身是否能够提升人们的工作效率。
大概一周前,Sam Altman宣布OpenAI启动“造芯”计划,因为目前OpenAI每天生成约1000 亿个单词,需要大量的GPU(图形处理器)芯片进行训练计算。
他希望筹得 7 万亿美元。
这个天文数字,不仅相当于全球GDP的10%,等同于2.5个微软、3.75个谷歌、4个英伟达、7个Meta,以及11.5个特斯拉的市值。
回顾时代,早年间是区块链,紧接着是GPT4,今年又是sora,我们总会发现危与机一直并存。
“变”是常态,“不变”才不正常,但模型训练的高消耗和信息失序,生成一种较为理想的新型人机交互过程无法言说,未来世界如何我们无法预测。
但善用工具是人类的天性,从火种到石器,从蒸汽机到电力技术,再到如今的sora,未来的AGI。
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: lzxmw777