发布日期:2026-06-18 07:06 点击次数:116

当今用AI生成音视频,频繁遭遇声息和画面临不上的悲怆。比如东谈主物张嘴话语却传出别东谈主的声息,粗略手脚节律和配景音乐全皆错位。这主如果因为现存模子把统共这个词领导词压缩成一个暗昧的语义向量,没法理清复杂场景里的时候线和脚色对应研讨。复旦大学和腾讯混元团队最近搞了个新玩意儿叫Baton,它不走寻常路——先画张“语义蓝图”当施工图,再让视频和音频饮血茹毛同步生成。
Baton的聪敏之处在于把“念念”和“作念”拆成两步。用户给个领导词后,模子先用多模态大模子画出跨模态的语义蓝图,把谁在什么时候作念什么、该配什么声息皆筹划清亮。比如领导词说“小男孩在公园打篮球,配景有忻悦声”,蓝图就会标出运球手脚的时候点和对应的音效位置。接着靠VA-Planner生成筹划令牌,再用RS-RoPE技能把这些筹划精确映射到视频帧和音频波形上,就像给生成经由装了GPS导航.
团队在论文里放了个对比践诺,传统模子生成的婚典视频里,新娘回身时音乐一忽儿卡顿,而Baton生成的版块连花瓣飘落的速率皆和钢琴曲节律严丝合缝。这项技能尽头适合作念动画短片粗略编造主播,毕竟谁也不念念看到主播嘴型对不上台词。现时论文还是挂在arXiv上,代码传奇很快会开源,看来以后作念视频编订可能真要靠“画蓝图”了。