AIGC 视频生成已屡见不鲜
但常常陷入“创作困境”
画面前几秒很惊艳
但时间一长人物就开始前后不一致
动作也僵硬死板不连贯
例如输入提示词
“一个盛满金色液体的香槟杯,杯中一个微型泰坦尼克号模型在闪烁的气泡中缓缓上升。船体在运动过程中轻轻倾斜,留下一道向上升起的微小气泡轨迹。”
我们想要的是这样的
(TeleAI 生成视频)
有模型生成的是这样
小船直接穿出了玻璃杯
......
还有模型生成的是这样
杯子里出现诡异的漩涡
......
当前市面上的模型,大多只能生成 5 秒的时长,面对长视频生成就只能“摊手投降”。这是由于主流模型通常采用两种方法,都各有短板。
一种是“全局建模”,一次性生成所有画面,但随着视频时长的增加,计算量呈平方级爆炸,显卡分分钟罢工,无法完成任务。
另一种是“自回归生成”,像写连载小说,画完这一秒,再画下一秒,但“误差”会像滚雪球,越来越大,导致画面、剧情彻底跑偏。
为了打破长视频生成的瓶颈,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领多模态生成团队结合智传网(AI Flow)理论,推出 VAST 3.0 版本。
VAST 是 TeleAI 自研的二阶段视频生成技术,让大模型先画分镜,再生成视频。全新的 VAST 3.0 通过“全局规划+局部精修”的策略,让模型先定“大局”,再抠“细节”,实现长视频稳定、流畅生成。
真正的导演拍电影,绝不是一镜到底,或想到哪拍到哪。而是先写剧本,再画分镜,对影片有一个整体的规划,再精进每个镜头。
TeleAI 借鉴了这种工业级的电影拍摄思维,对 AI 长视频生成进行逻辑重构,提出了“下一帧率预测范式”,相对全局有整体规划,再填充和完善细节。
第一步:全局规划
先以 6 FPS 的低帧率生成一份“视频蓝本”。这一步生成的画面会看起来有一些卡顿和跳帧,这是由于视频的帧率较低。但模型在这一步可以锁定整个视频的剧情走向、人物外貌和场景布局等,保证画面从头到尾不穿帮,解决了“长时一致性”难题。
(6 FPS 视频,点击播放)
第二步:局部精修
有了 6 FPS 的“视频蓝本”作为锚点,模型再逐步把帧率提升到 12 FPS、24 FPS。这一步只需专注于填充动作和画质细节,不用再担心剧情、人物、场景的跑偏和崩坏,并让画面清晰流畅,彻底实现长视频的生成。
(24 FPS 视频,点击播放)
这种“由粗到精”的模式,让模型在生成超长视频时能保持超强的稳定性,其背后有四项核心技术加持,重塑了生成效率。
1 统一框架:全能适配接口
就像一个“万能转接头”,不再需要针对特定输入进行额外训练,无论是给一段文字描述、一张照片,还是只给第一帧和最后一帧让它补全中间,都能直接“即插即用”,且不额外增加内存负担,部署成本直接减半。
2 场景切换:专业导演思维
在训练阶段专门学习了镜头切换逻辑,从 300 万个高质量视频片段中,专门挑出带“转场”的内容进行训练,教会模型如何在不同场景间自然过渡,让生成的视频不再是单调的单镜头运镜,而是真正具备了“导演感”的叙事作品,连贯性更强。
3 时序编码:数字化刻度尺
引入随机化时序位置编码技术,给模型换了一把“连续刻度尺”。通过调整时间索引间隔,让模型不再机械地记忆帧数,而是学习一种“连续的时间函数”。无论生成 5 秒还是 1 分钟,无论帧率是 6 FPS 还是 24 FPS,模型都能精准定位每一帧的位置。
4 并行生成:效率全面起飞
实现计算复杂度指数级下降,通过并行生成模式,使计算压力被层层稀释。当精修级数达到 3 级时,生成效率最高能提升 64 倍,大幅降低了对显存的压榨。即便生成一分钟的长视频,也不用再等到天荒地老。
TeleAI 的长视频无论在画面质感还是运动流畅度都展现出超强的统治力
对比演示 1
在 TeleAI 生成的视频中
镜头缓慢流畅,氛围感拉满
人物细腻稳定,前后保持一致
(此视频由 TeleAI 生成,点击播放)
而下面这段其他模型生成的视频
人物表情神态比较诡异
到了后段主角基本变了一个人
(此视频由其他模型生成,点击播放)
对比演示 2
在 TeleAI 生成的视频中
小汽车行驶流畅
与周围的树木、房屋和谐统一
(此视频由 TeleAI 生成,点击播放)
在下面这段其模型生成的视频中
不仅汽车和场景发生了扭曲变形
甚至汽车还撞到了树上

(此视频由 TeleAI 生成,点击播放)
在下面这段其模型生成的视频中
不仅汽车和场景发生了扭曲变形
甚至汽车还撞到了树上
(此视频由其他模型生成,点击播放)
TeleAI 生成的长视频
画面保持高度稳定
没有任何色彩衰减或形变
同时还可做到流畅切镜
(此视频由 TeleAI 生成,点击播放)
这不仅是算法的创新
更是在重塑 AI 视频创作的边界
为未来影视创作带来了
新的生产力工具
相关工作
Y. Ma, C. Liu, J. Wang, J. Liu, H. Huang, Z. Wu, C. Zhang, X. Li*, "TempoMaster: Efficient Long Video Generation via Next-Frame-Rate Prediction", IEEE CVPR 2026, arXiv:2511.12578.
J. Shao and X. Li*, "AI Flow at the Network Edge," in IEEE Network, vol. 40, no. 1, pp. 330-336, Jan. 2026, doi: 10.1109/MNET.2025.3541208.
H. An, W. Hu, S. Huang, S. Huang, R. Li, Y. Liang, J. Shao, Y. Song, Z. Wang, C. Yuan, C. Zhang, H. Zhang, W. Zhuang, X. Li*. "AI Flow: Perspectives, Scenarios, and Approaches", Vicinagearth 3, 1 (2026).