語音克隆技術近年突飛猛進,從早期需要數小時錄音才能建立個人音色模型,到現時僅需數分鐘音頻即可生成高度相似音色,技術門檻已大幅降低。GPT-SoVITS 作為當前最受關注的開源語音克隆項目之一,正在改變內容創作者、配音工作者及企業的語音合成方式。
什麼是 GPT-SoVITS?
GPT-SoVITS 是一款結合唱曲家(SoVITS)與 GPT 模型优势的開源語音克隆工具。該項目由團隊在 2024 年中開發並開源,旨在讓用戶通過少量語音樣本,快速訓練出具有特定音色及說話風格的語音模型。
與傳統的語音合成(TTS)系統不同,GPT-SoVITS 不需要昂貴的商業 API 或雲端運算資源。用戶可以在本地運行完整流程,從訓練到推理均在自家硬件上完成,大幅提升私隱度及使用彈性。
核心優勢:只需 1-5 分鐘的目標語音樣本,即可訓練出高擬真度的個人音色模型,適用於中文、英文、日文等多種語言。