浦汇FxPro:可灵 O1:多模态视频创作的“大一统时刻”终于到来

当所有内容平台都在谈论“AI 视频的下一秒”,可灵 O1 的出现让这句口号第一次有了真正的技术感落地。它不是一个新功能,也不是单一模型能力的升级,而是一种创作范式的重构——一个从语义理解到视频生产全链路统一的“大一统多模态引擎”。它试图回答的问题并不新鲜:视频创作为什么仍然复杂、碎片、割裂?而它提供的答案,则是以 MVL(Multi-modal Visual Language,多模态视觉语言)为底层逻辑,把一切创作行为都收束到“理解指令”这一核心动作之上。

在可灵 O1 的语境里,用户上传的图片、视频、文字、角色、场景都不再是“素材”,而是语义矩阵的一部分。模型不再区分模态类型,而是像一个真正理解镜头语言的导演,把所有输入视为指令,并在同一个推理体系内完成从生成到编辑的全部过程——不跳模型、不切工具,也无需在多个任务间重新建立语境。一个创作者提出的“换天空、删路人、保持角色一致”在过去意味着复杂的 masking、跟踪、调色与补帧,而在这里,它只是一次对话。