作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。
比如官推里这条14秒的东京雪景视频。
提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。」
穿着时尚的女性漫步在霓虹背景的东京街头,地面有积水倒影。
对于五官和皮肤的刻画十分真实,特别是痘印和法令纹,细节让人惊叹。
猛犸象自冰川雪原中缓步从来,背后升腾起雪雾。
烛火旁纯真顽皮的3D动画小怪物,光影、表情和毛茸茸的细节满分:
一名24岁女性的眼部特写,足以以假乱真。