一个充满激情的个体、团队、组织,
从文本、图像到视频
2024年,AI大模型的战火正在愈演愈烈。
2月16日凌晨,大洋彼岸的OpenAI公司再度抛出王炸,可一次性生成60秒视频的大模型Sora浮出水面。
在街头漫步的女子、白雪皑皑的草地上行进的猛犸象、唐人街的舞狮表演……高清晰度且画面可控、能多角度切换的视频效果,相较于目前“文生视频”业内主流的数秒钟版本,OpenAI再度让整个AI圈为之惊叹。
目前,如ChatGPT、Gemini、LLaMA等语言模型均基于Transformer架构,利用了自注意力(self-attention)机制来理解和生成文本,使模型能够捕捉到词与词之间的复杂关系;与之不同,Diffusion模型则是“文生图”的代表,基于概率过程逐步构建数据。
Sora则是将上述两种模型结合,形成基于Diffusion Transformer(DiT)思路的新模型,其中的Transformer架构是利用对视频和图像潜在代码的时空patch进行操作。
从目前释放出的作品看,无论是背景建筑和街道以及人像的逼真程度,都保持着高度的一致性,哪怕是各种镜头的蒙太奇,都没有出现明显的失真情况。瞳孔、睫毛、皮肤纹理,动物的毛色、动作、与周围环境的关系,逼真且嗅不出浓重的AI味。
虽然呈现效果令人惊艳,但目前看,Sora视频生成能力肯定并不完美(但0和1之差别将永远主导世界各行业各角度各层面的所有无以伦比的大局),如杯子碎裂前红酒已洒满桌面等不符合物理学规律的AI生成Bug不在少数,未来与文本对话和图片生成相比,训练成本高昂、高质量数据集的缺乏以及视频描述的模糊性都将是Sora需要跨越的门槛。
共赴AGI
此次,Sora之所以引起如此巨大的关注,一个重要原因就是OpenAI为Sora赋予的使命,并不单单只是作为视频生产的工具,而是将其称作“能够理解和模拟现实世界模型的基础”,相信其能力“将是实现AGI的重要里程碑”。
如果将语言模型理解为接近人脑,那么视频模型则近似物理世界。
视频可以概括为从某一个视角观察某个场景的一段时空,训练AI的真正目标是理解和生成一个真实的场景或者世界,最终指向的是AGI(通用人工智能)。或正如某人所说:“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”
做一件事时,除非能坚持做完,否则最好不要开始。
在过去一年中,尽管国内大模型产业蓬勃发展、百花齐放,但纵览全球OpenAI、谷歌、英伟达等players,显著差距尚存也是显著的事实。在这种情况下,不仅是,相关产业必须被倒逼要加紧追随世界科技前沿的步伐,同时在可行的情况下,专注并加强在人工智能细分领域的竞争和深入,加紧谋求局部突破,无论其是不是最优解,而更是,寻找创新力或活力的来源仍为根本,那远方的激情到底来自哪里?理论是,相信能收到,就可以收到。
此次Sora背后的涌现能力,为自动驾驶、设计等需要现实世界建模的行业提供了思维的参考。亦如马斯克早就晒出的特斯拉一年前就可以精准模拟自动驾驶环境的视频,在这些可与实际业务场景紧密结合的领域,依然潜藏着巨大的、未被开发的潜力。
无论如何,OpenAI再次将全世界拉回到了技术竞赛的氛围中,虚拟与现实间的AI桥梁已见雏形,更多的可能性则需要各界企业与机构的共同努力与协作,共赴通用人工智能的星辰大海。这不一定是一场竞争,而或是一场劳动竞赛。人和人之间,领导人和领导人之间,企业和企业之间,本质上比拼的是(内部)心中是否有更远方更高级的梦。
结语
信念是对所盼望的事情的把握,是还没见到的事实的证据。
来源:互联网周刊
世界智能大会 WORLD INTELLIGENCE CONGRESS
津ICP备17008349号-3津公网安备 12010302002098号 官方声明