← 返回首頁

係乜嘢?

VibeVoice 係 Microsoft 開發嘅開源前沿語音 AI 項目,專為構建下一代語音介面而設,現已累積 45,720 顆星,成為語音 AI 領域最受矚目嘅开源項目之一。

由微軟研究院(Microsoft Research)打造,採用 MIT License,語言以 Python 為主,為開發者提供完整嘅語音識別(ASR)、語音合成(TTS)同埋實時語音處理能力。

三大核心模型

VibeVoice-ASR(語音識別)

長上下文語音識別模型,具備以下能力:

VibeVoice-TTS(語音合成)

高質量語音生成模型,最大特點:

VibeVoice-Realtime(實時語音合成)

專為低延遲場景設計:

核心技術:7.5Hz 連續分詞器

VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器,運行在 7.5Hz,僅為傳統方案嘅十分之一,實現 3200 倍音頻壓縮率

架構原理:

極低計算量之餘,依然保持高質量音頻輸出。

技術規格

模型參數上下文窗口單次最長音頻延遲
VibeVoice-ASR7B64K tokens60 分鐘
VibeVoice-TTS1.5B64K tokens90 分鐘
VibeVoice-Realtime0.5B~10 分鐘連續流式~300ms

點樣試用?

語音識別(ASR):

實時語音合成(Realtime TTS):

GitHub 主頁:

風險提示

⚠️ 深度偽造風險
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。

使用時請確保:
  • 音頻內容真實可信
  • 獲得說話者明確同意
  • 不用於誤導性內容