在AI技术迈出的一次重大飞跃中,OpenAI隆重推出其最新杰作——Sora,这是一种先进的文本到视频模型,承诺以前所未有的逼真度和创造力改变AI生成内容的格局。这一先进的模型将彻底改变AI生成内容的风景,使用户能够创建一分钟长的视频,同时保持出色的视觉质量,并忠实于用户的输入。 OpenAI自豪地宣布了Sora的到来,强调其生成复杂场景的能力,包括多个角色、特定运动类型和对主题和背景的精准细节。与之前的模型不同,Sora展示了对语言的深刻理解,准确解释提示,以创作富有表现力的角色,表达生动的情感。 今天,OpenAI启动了对Sora的发布,强调将其释放给Red团队进行对潜在危害或风险的彻底评估。此外,还向一些视觉艺术家、设计师和电影制片人提供了访问权限,以收集关于如何改进该模型以使其更有创意专业性的宝贵反馈。这种协作方法旨在将Sora打造成一种特别满足创意行业需求的工具。 Sora的能力不仅仅限于从文本提示生成视频。该模型展现了从静态图像直接生成视频的高效能力,以惊人的准确性和对细节的关注使图像内容动起来。它还能够扩展或增强现有视频,展示了超越传统AI视频模型的多功能性。 在内部运作方面,Sora采用了扩散模型的方法,这是一种从静态噪声开始,并通过多个步骤逐渐消除噪声的技术。这种方法使Sora能够一次性生成整个视频,或者通过给予模型对多帧的前瞻性,使生成的视频变得更长。采用类似于GPT模型的Transformer架构确保了卓越的扩展性能。 OpenAI强调了Sora对数据表示的依赖,即“patches”(补丁),这是数据的较小单元,用于统一表示视频和图像。这种数据表示的统一性使得可以在更广泛范围的视觉数据上进行训练,涵盖不同的持续时间、分辨率和宽高比。 尽管Sora在AI视频生成方面取得了显著进展,OpenAI承认其存在一些弱点。该模型可能在准确模拟复杂场景的物理特性、理解特定因果关系实例以及提供随时间推移事件的精确描述方面遇到挑战。 总的来说,Sora代表了AI视频生成领域的一项划时代的成就,突破了此前被认为不可能的界限。随着它进入测试人员和创意专业人士的手中,人们对Sora在各个行业产生广泛影响和潜在应用的期待不断增长。OpenAI分享进展并寻求外部反馈的承诺突显了推动AI能力演进进入未来的协作精神。