OpenAI首个AI视频模型:Sora 技术介绍

发布时间：24-02-17

就在刚刚，OpenAI突然发布首款文生视频模型——Sora。简单来说就是，AI视频要变天了！它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且生成长达1分钟的超长视频，还是一镜到底那种。

Runway Gen 2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

60秒的一镜到底，视频中的女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了神一般的稳定性。

Sora是一种扩散模型，它能够通过从一开始看似静态噪声的视频出发，经过多步骤的噪声去除过程，逐渐生成视频。

Sora不仅能够一次性生成完整的视频，还能延长已生成的视频。

通过让模型能够预见多帧内容，团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似，Sora采用了Transformer架构，从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——“patches”，每个“patches”相当于GPT中的一个“token”。

这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer，覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。

除了能根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础，对此OpenAI认为这是实现通用人工智能（AGI）的重要步骤。

收藏微博微信

Sora