軟文推廣的網站

核心要點

圖片



作者介紹:本文第一作者黃小虎同學,目前是字節自注香港大學的三年級在讀博士生,導師是跳動提出加拿大28神预测网站宝宝预测韓鍇教授。黃小虎的意力研究方向是以視頻為中心的領域,包括音視頻生成、視頻視頻理解以及視頻識別。聯合聯合

視頻 - 音頻聯合生成的字節自注研究近期在開源與閉源社區都備受關注,其中,跳動提出如何生成音視頻對齊的意力內容是研究的重點。

近日,視頻來自香港大學和字節跳動的聯合聯合研究團隊提出了一種簡單有效的框架 ——JoVA,它支持視頻和音頻的字節自注 Token 在一個 Transformer 的注意力模塊中直接進行跨模態交互。為了解決人物說話時的跳動提出 “口型 - 語音同步” 問題,JoVA 引入了一個基于面部關鍵點檢測的意力嘴部區域特定損失 (Mouth-area specific loss)。

實驗表明,視頻加拿大28神预测网站宝宝预测JoVA 只采用了約 190 萬條訓練數據,便在口型同步準確率、語音質量和整體生成保真度上,達到了先進水平。



  • 項目主頁: https://visual-ai.github.io/jova/
  • 論文地址:https://arxiv.org/abs/2512.13677

一、研究背景與動機

目前的開源解決方案通常分為兩大類別:一類是 “級聯式”,即先生成視頻再配音,或者先生成語音再驅動視頻生成,這種方式在一定程度上會導致音頻和畫面的割裂;另一類是 “端到端的聯合生成”,試圖同時輸出視頻和音頻。

如下圖 a, 現有的端到端方法(如 OVi 和 Universe 等),為了實現雙模態對齊,需要在自注意力層 (self-attention) 之外,額外設計融合模塊或跨注意力層 (Cross-attention)。這不僅破壞了 Transformer 架構的簡潔性,還可能阻礙進一步的數據和模態擴展。

相比之下,JoVA 采用了更加簡潔的設計(如圖 b),直接使用聯合自注意力層 (joint self-attention) 進行兩種模態特征的融合與對齊。它同時承擔了單模態內的建模以及跨模態的融合任務,無需引入任何新的模塊。



二、方法設計

1. 架構描述

JoVA 采用 Waver 作為基礎模型。為了實現音頻生成,JoVA 首先通過復制預訓練視頻主干網絡 (Backbone) 的參數來初始化音頻擴散模型。在特征提取方面,采用了 MMAudio VAE 將原始音頻轉換為聲譜圖潛在表示 (Latent Representation)。

音頻分支的訓練沿用了與視頻分支相同的流匹配 (Flow Matching) 目標函數。在預訓練階段,視頻和音頻模態是獨立訓練的;而在后續階段,兩者被統一整合進同一個架構中進行并行處理。此外,對于視頻生成,模型支持參考圖像 (Reference Image) 作為條件輸入。該圖像經由視頻 VAE 編碼后,在通道維度上與噪聲視頻潛特征進行拼接。



2. 音頻 - 視頻 - 文本聯合自注意力層

為了實現模態間的融合,JoVA 在 Transformer 塊內部采用聯合自注意力機制(Joint Self-Attention)。具體而言,視頻 Token、音頻 Token 以及對應的文本 Token 被拼接在一起,輸入到共享的自注意力層中進行處理。這種設計允許不同模態的 Token 在每一層都進行直接的信息交換,既保留了各自的預訓練知識,又實現了特征融合。為了確保視頻與音頻在時間維度上的精確同步,模型采用了源自 MMAudio 的時間對齊旋轉位置編碼(Temporal-aligned RoPE),在時間維度上同步了兩種模態的位置編碼。

3. 潛空間嘴部區域感知監督(Mouth-Aware Supervision)

為了解決人像生成中的唇形同步問題,JoVA 引入了一種針對嘴部區域的增強監督策略。該過程包含三個步驟:

1. 區域定位:首先在原始視頻幀上進行面部關鍵點檢測,計算出覆蓋嘴部區域的像素級邊界框。

2. 潛空間映射:將像素空間的邊界框映射到 VAE 的潛空間。這包括空間上的縮放(除以空間下采樣因子 s)和時間上的滑動窗口聚合(根據時間下采樣因子 t 合并窗口內的邊界框),以精確定位潛特征中的嘴部區域。

3. 加權損失:在訓練目標函數中引入了專門的嘴部損失項。該損失僅對視頻潛特征中的嘴部掩碼區域計算流匹配損失,并通過權重系數進行調節。最終的總損失函數由視頻損失、音頻損失和嘴部區域損失共同構成,從而在不增加推理階段架構復雜度的前提下,強制模型學習細粒度的唇形 - 語音對齊。



如下圖,我們可以發現,這種映射方式可以很好地在潛空間定位到嘴部區域:



三、訓練數據集構建

作者構建了包含三個部分的訓練數據集:Text2Audio(環境音)、Text2Video-Audio(自然場景視聽對)以及 Text2Avatar-Speech(數字人 / 說話人視頻),總共約 1.9M 的訓練樣本。數據標注采用了一套自動化流水線:使用 Tarsier2 生成視頻描述,Audio-flamingo3 生成音頻描述,并利用 Whisper 進行自動語音識別(ASR)以獲取語音文本。

在實施細節上,采用兩階段訓練策略:先進行語音單模態獨立訓練(80K 步),再進行聯合視聽訓練(50K 步),并在推理時使用了分類器無關引導(Classifier-Free Guidance)以提升生成質量。



四、實驗結果

1. SOTA 方法對比

在 UniAvatar-Bench(作者精選的 100 個樣本)和 Verse-Bench(600 個多樣化樣本)兩個基準上進行了評估。對比對象包括兩類:一是使用真實音頻驅動的視頻生成模型(如 Wan-S2V, Fantasy-Talking),二是聯合視聽生成模型(如 Universe-1, OVI)。

UniAvatar-Bench 表現:JoVA 在整體性能上表現最佳。

  • 唇形同步(LSE-C):得分為 6.64,不僅優于聯合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超過了使用真實音頻驅動的 Wan-S2V (6.43),證明了嘴部監督策略的有效性。
  • 語音與音頻質量:在文本轉語音準確性上,JoVA 取得了最低的詞錯誤率(WER 0.18);在音頻生成指標(FD, KL, CE, CU, PQ)上均取得最佳分數。
  • 視頻質量:在動態程度(MS 0.98)和美學評分(AS 0.47)上均領先。雖然身份一致性(ID 0.78)低于音頻驅動模型,但在聯合生成任務中處于合理范圍。



Verse-Bench 表現:JoVA 展現了在多樣化場景下的魯棒性。

  • 語音準確性:WER 低至 0.11,驗證了其穩健的語音合成能力。
  • 視聽對齊:LSE-C 得分為 6.51,略低于 OVI (6.61) 但遠高于 Universe (1.62)。
  • 綜合質量:在保持最高視頻動態(MS 0.80)和美學質量(AS 0.48)的同時,音頻生成的一致性(CS, CE)也達到了最優水平。



模型擴展性與效率分析

研究進一步對比了基于 Waver-1.6B(總參數量 3.2B)和 Waver-12B(總參數量 24B)主干網絡的 JoVA 模型性能:

  • 小模型的高效性:僅使用 3.2B 參數和 1.9M 訓練數據的 JoVA 模型,其 LSE-C 得分達到 6.20,顯著優于參數量更大(7.1B)且訓練數據更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并與 10.9B 參數的 OVI 模型具備競爭力。
  • 大模型的性能上限:隨著參數量增加至 24B,JoVA 在各項指標上均達到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。



2. 融合實驗對比

為了驗證各模塊的有效性,作者進行了多項消融實驗:

嘴部感知損失(Mouth-Aware Loss)的影響:

  • 當權重為 0.0 時,模型無法學習細粒度的唇形對齊(LSE-C 僅為 1.39)。
  • 增加權重至 5.0 時,LSE-C 顯著提升至 6.64,且未損害其他音頻或視頻質量指標。這表明針對嘴部區域的顯式監督對于實現精確同步至關重要。



時間對齊 RoPE 的影響:

  • 采用時間對齊的 RoPE(視頻和音頻共享時間維度的位置編碼)相比未對齊版本,LSE-C 從 6.58 提升至 6.64。
  • 盡管在音頻分布相似度(FD)上存在輕微折損(0.58 vs 0.69),但該設計顯著增強了幀級的時間對應關系,更利于人像視頻生成。



聯合自注意力 vs. 交叉注意力:

  • 對比結果顯示,聯合自注意力(Joint Self-Attention) 機制在唇形同步(LSE-C 6.64)和語音準確性(WER 0.18)上均優于交叉注意力變體。
  • 特別是帶線性適配層的交叉注意力方案表現最差(LSE-C 1.63)。這證實了在統一的注意力空間內直接處理多模態 Token,比通過獨立的交叉注意力模塊更能促進特征的有效對齊。