量子位模型更新

擼貓擼出SOTA!3個00後2個月,造出史上最快流式音視頻社交模型

2026年6月20日 18:47
擼貓擼出SOTA!3個00後2個月,造出史上最快流式音視頻社交模型

重點摘要

## 三個00後兩個月打造「擼貓級」模型!速度狂甩Veo 3,成本僅1/2000 近期AI界傳來一則令人振奮的消息:三位年僅19~23歲的開發者,僅用兩個月時間,便自主研發出一款流式音視頻社交模型,並在關鍵指標上宣稱達到業界頂尖水準(SOTA)。據報導,這款模型在推理速度上比Google的Veo 3快上7倍,而訓練與部署成本更只有Veo 3的二千分之一。

站內 AI 整理稿

## 三個00後兩個月打造「擼貓級」模型!速度狂甩Veo 3,成本僅1/2000

近期AI界傳來一則令人振奮的消息:三位年僅19~23歲的開發者,僅用兩個月時間,便自主研發出一款流式音視頻社交模型,並在關鍵指標上宣稱達到業界頂尖水準(SOTA)。據報導,這款模型在推理速度上比Google的Veo 3快上7倍,而訓練與部署成本更只有Veo 3的二千分之一。這項成果不僅展現了年輕開發者的驚人創造力,也為即時影音社交場景帶來了前所未有的低成本高效能方案。

### 重點整理:速度與成本的雙重突破

根據現有資訊,這款模型的兩大核心亮點在於速度與成本。相較於市面上成熟的Veo 3模型,新模型在同樣任務下不僅推理速度提升7倍,更能以極低的資源消耗運行——成本僅為對比對象的1/2000。這意味著過去需要大型GPU叢集才能支撐的即時影音生成與互動,現在可能僅需一般消費級硬體即可實現。三位開發者將模型定位為「社交模型」,暗示其專為低延遲、多人即時互動的音視頻場景而設計。

### 背景脈絡:即時影音AI的高牆與缺口

當前AI影音生成模型,如Veo 3、Sora等,雖然畫質與流暢度不斷進步,但普遍存在兩大痛點:一是推理延遲過高,難以應用於即時對話或直播互動;二是訓練與部署成本昂貴,普通團隊與個人難以負擔。尤其在社交領域,用戶對低延遲的要求更為嚴苛——若一段回應需要等待數秒甚至數十秒,互動體驗將大打折扣。這三位00後開發者正是看準了這個缺口,選擇從輕量化、高效率的角度切入,試圖打破「高品質=高成本、高延遲」的既有印象。

### 開發過程:從養貓靈感到技術落地

有趣的是,據傳這個專案的靈感來自於開發者之一在「擼貓」時的突發奇想:若能讓AI即時模仿家中貓咪的動作與聲音,並透過社交軟體與朋友分享,是否就能打造出更生動的互動體驗?於是三人利用課餘與業餘時間,從開源模型與論文出發,大量進行架構優化與蒸餾實驗,最終在兩個月內完成從構想到可運行模型的階段。雖然具體技術細節尚未公開,但能達到如此懸殊的速度與成本對比,推測可能採用了極致的模型壓縮、自適應推理與非同步流式處理等技巧。

### 可能影響:社交軟體、直播、元宇宙的催化劑

若這款模型能維持宣稱的效能並穩定落地,將對多個產業產生深遠影響。首當其衝的是即時通訊與社交軟

Related

相關文章

IT之家模型更新

LM Studio 與蘋果合作,成功用四臺 Mac Studio 運行萬億參數 Kimi K2.6 大模型

在 WWDC 2026 上,LM Studio 與蘋果合作,成功在由四臺 Mac Studio 組成的集群上本地運行了月之暗面發佈的萬億參數模型 Kimi K2.6。演示通過蘋果的內存共享技術,實現了約 1.5TB 的統一內存容量,並展示了通過 LM Link 從 MacBook Neo 和 iPhone 進行安全遠程訪問的能力。 #AI #蘋果 WWDC #本地部署

16 小時前
MarkTechPost AI模型更新

VibeThinker-3B:基於Qwen2.5-Coder-3B與頻譜至訊號後訓練管線的30億參數濃密推理模型

近期AI推理突破多仰賴大規模參數,但VibeThinker-3B走出不同路線。這款由新浪微博(中國)研究團隊開發的30億參數模型,以效率證明較小規模也能表現出色。該模型基於Qwen2.5-Coder-3B,採用後訓練(包括監督式微調、強化學習與自蒸餾),在數學、程式碼及STEM等可驗證任務上,表現可匹敵規模數百倍以上的模型,並以MIT開源授權釋出。

1 天前