微軟“意外洩密”：Claude Mythos萬億參數，訓練規模浮出水面？

2026年6月4日 20:04

重點摘要

這篇消息聚焦「微軟“意外洩密”：Claude Mythos萬億參數，訓練規模浮出水面？」。原始導語提到：Scaling萬歲！從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

### 微軟「意外洩密」：Claude Mythos 萬億參數，訓練規格浮上檯面？

近期一則來自微軟的「意外洩密」消息在 AI 圈引發熱議，內容指向 Anthropic 旗下 Claude 模型可能出現極為龐大的新版本——暫稱 Claude Mythos，據傳其參數規模達到兆級（萬億）水準。雖然目前 Anthropic 與微軟皆未正式回應，這起洩密事件卻讓業界對大型語言模型的競賽格局再度聚焦。本文將整理目前已知資訊，並分析其背後意義。

#### 重點整理：洩密內容與訓練規模

根據洩露的內部文件片段，Claude Mythos 的參數量被標註為「1T+」，暗示其規模可能超過當前所有公開模型。對比 OpenAI 的 GPT-4 傳言參數約 1.8 兆，Google Gemini Ultra 則推估在 1.5 兆左右，若此資訊屬實，Claude Mythos 將直接站上頂尖位置。此外，訓練資料量與算力需求據稱也大幅提升，採用更先進的分散式訓練架構。然而，由於來源僅為非官方管道，實際數字仍有待驗證。

#### 背景脈絡：Scaling Law 與軍備競賽

過去幾年，「Scaling Law」（規模定律）一直是 AI 發展的核心信仰：模型參數越多、訓練資料越大、算力越高，模型能力就越強。從 GPT-3 的 1750 億參數到現在各廠商爭相突破萬億門檻，這條路徑從未停歇。微軟這次的洩密，恰好呼應了業界對「Scaling 萬歲」的集體潛意識——即便外界開始質疑規模報酬遞減，巨頭仍持續加碼。Claude 系列原本就以安全與對齊見長，若真的要推出兆級模型，意味著 Anthropic 不只在安全領域深耕，更要在能力上與 OpenAI 正面對決。

#### 可能影響：競爭格局與市場反應

若 Claude Mythos 成功落地，將直接撼動當前大型語言模型的版圖。首先，OpenAI 與 Google 可能被迫加速下一代模型（如 GPT-5、Gemini 2.0）的研發節奏；其次，微軟作為 Anthropic 的重要合作夥伴，其 Azure 雲端服務將承接巨大的訓練與推理需求，進一步鞏固其 AI 基礎設施優勢。另一方面，訓練兆級模型的成本極高，單次訓練可能耗費數億美元，這也將拉高後進者的門檻，加速市場集中化。

#### 讀者可關注的後續

未來幾週，有幾項動向值得留意：第一，Anthropic 或微軟是否會正式承認或否認這起洩密，以及是否會公布模型架構細節；第二，訓練成本的具體控制措施——兆級模型需要極高效率的算力調度，若採用 MoE（混合專家）或其他節省參數的技術，將影響後續設計方向；第三，監管機構的態度，美國聯邦貿易委員會（FTC）與歐盟數位市場法案均可能對如此龐大的模型提出透明度要求。最後，一般開發者與使用者應關注這類模型的 API 價格與使用門檻，因為更大規模往往意味著更高收費。

總結而言，微軟這次「意外」或許並非純屬巧合，而是提前為市場注入對 Scaling 時代的期待。在「越大越強」的信仰背後，我們也需思考：當模型參數突破兆級，人類對 AI 的理解與控制力是否還能同步成長？這將是接下來整個產業必須面對的核心問題。

原始來源：36氪 ↗

查看原始來源

IT之家模型更新

重慶車企首家：長安汽車自研大模型獲國家生成式 AI 備案審批

#長安汽車# 全棧自研的長安 #天樞大模型# 已正式通過備案審批，成為重慶首家通過國家級備案的車企，標誌著長安科技自主研發的“天樞大模型”作為獨立訓練、運營的生成式 AI 大模型服務或產品可面向公眾提供服務。

剛剛閱讀分析

36氪模型更新

收費才是DeepSeek的“成人禮”

這篇消息聚焦「收費才是DeepSeek的“成人禮”」。原始導語提到：豆包先給DeepSeek探探路。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

56 分鐘前閱讀分析

IT之家模型更新

轉戰閉源遇挑戰：消息稱 Meta 一再推遲上線 AI 模型 Muse Spark

根據《華爾街日報》報導，Meta 公司最強 AI 模型「Muse Spark」開發遭遇阻礙，已多次延後上線時程。截至目前，該模型仍未對開發者開放 API 進行調用。

2 小時前閱讀分析

Hugging Face Blog模型更新

如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR

NVIDIA 推出 Nemotron 3.5 ASR，這是一個具備 6 億參數的串流多語言語音轉文字模型，能從單一檢查點即時轉錄 40 種語言區域，並內建標點符號與大小寫功能。它繼承了今年稍早於 Hugging Face 及 NIM 發布的 Nemotron 3 ASR（僅支援英文）模型，後者已獲得人工智慧分析獨立基準測試的驗證。

4 小時前閱讀分析

雷峰網模型更新

何小鵬內部講話曝光，「最美」機器人量產時間表出來了？

機器人能不能規模化穩定交付，是整個行業的生死問題。作者丨李希編輯丨馬曉寧 “4季度一定要把量產做出來。”在近日的一場小鵬機器人量產動員大會上，何小鵬給內部團隊定下了一條極具壓迫感的時間線：2026 年四季度完成量產，2027 年一季度進入國內汽車門店導購場景，2027 年二季度開始進入海外市場。這場講話裡，何小鵬反覆強調的並不是 Demo、視頻或者模型參數，而是三個關鍵詞：“量產、全棧自研、跨域融合”。如果把過去兩年的具身智能行業理解為“模型秀場”，那麼小鵬這場內部講話，更像是一場真正的製造業動員令。我們認為，小鵬正在試圖把機器人，按照“造車邏輯”重新做一遍。01何小鵬說了哪些話小鵬去年年底發佈的全新一代人形機器人 IRON 相當矚目，一度被稱為“最美”機器人。除了量產時間表外，何小鵬表示，小鵬機器人是全國唯一一家全領域自研、跨界融合的機器人廠商。而且小鵬的自研深度很深。小鵬汽車花了5年的時間做自研，才能把第一個版本做到行業水平，再花5年時間才能把多個不同能力的跨域進行融合。而如果做簡單的產品定義與集成自研，你就永遠做不到跨域融合。（因為）你永遠會看到其他人給你提的需求，你再去找供應商商量，供應商說做不到，你就做不到了。所以何小鵬在會場堅決表態，小鵬要成為機器人中的蘋果，從芯片到操作系統、從關節到手都要做到自研，這樣才有可能做到不一樣。當然前期的投入時間難度特別大，但是想象力、創新力和改造力也特別不一樣。這款量產機器人，會是一款什麼樣的機器人？何小鵬給的產品定義是，小鵬正在走出一條不一樣的產品和商業路線。小鵬的機器人是一個優雅、美、安全的機器人，是一個能夠跟人近距離交互的機器人。02從“機器人 Demo”到“機器人工程”何小鵬在講話中回憶了小鵬汽車早期自動駕駛研發時的經歷。當時團隊曾經認為，“硬件先做，軟件後面 OTA 即可”，但後來發現，零下 30 度起霧、電磁幹擾、

7 小時前閱讀分析

雷峰網模型更新

CVPR 2026：深度學習的「標準件」，正在被逐個拆掉

注意力的浮點精度不是必須的，歸一化流的"精確可逆"是可以放棄的…… 作者丨馬曉寧編輯丨岑峰這裡有一幢大樓，叫做深度學習。過去幾年，人們不停地給它加蓋、擴建，越蓋越高，越蓋越複雜。這幢大樓叫 Transformer。蓋樓時用了一大批標準件，浮點精度是它的鋼筋，層歸一化和殘差連接是它的混凝土，因果掩碼是它的承重隔斷。旁邊還有兩棟附樓：一棟是擴散模型；另一棟歸一化流。在漫長的施工期裡，人們不斷加裝更粗的鋼筋、更復雜的控制系統，以為這樣做就能讓這幾棟樓更穩固高大美觀。但是這樣真的是對的嗎？可現在，這些施工的收益越來越小，而有人在附樓裡試出了更好的新零件，量化、去噪、可逆約束都有了更輕便的替代品。於是，一批施工隊同時進場，對準這些標準件開刀。他們不是來修修補補的，而是問一個更根本的問題：這根柱子、這面牆、這套管道，到底是真承重，還是隻因為一直在那兒所以沒人動？更有意思的是，五支施工隊去了不同的樓層。有的在樓體外牆動手，拆掉了那些只用來裝飾的預製板——那是推理端的精度和定製策略。有的鑽進設備層，重新鋪設了管線——那是訓練目標的參數化方式。還有的直接下到地下室，對著地基裡的鋼筋動起了大錘——那是歸一化層和可逆性約束。把它們放在一起看，你會發現一條清晰的遞進線：深度學習的"標準件"正在從外圍到核心，被逐個拆掉。01從推理端開刀：精度和定製策略，不是必須的最先被質疑的標準件，是那些看起來最"技術性"的，比如說，浮點精度的矩陣乘法，和針對不同架構手工調參的量化策略。這些因為不涉及“模型為什麼能work”的核心設計哲學，看起來只是優化效率、節省算力，所以最容易被人當成“普通的工程優化”。但 CVPR 2026 的這兩篇論文告訴我們，遠不止"模型可以更省"這麼簡單。▎BinaryAttention：1-bit 注意力，比全精度還能打Transformer 的注意力模塊一直是算力黑洞。Quer

7 小時前閱讀分析

相關文章

重慶車企首家：長安汽車自研大模型獲國家生成式 AI 備案審批

收費才是DeepSeek的“成人禮”

轉戰閉源遇挑戰：消息稱 Meta 一再推遲上線 AI 模型 Muse Spark

如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR

何小鵬內部講話曝光，「最美」機器人量產時間表出來了？

CVPR 2026：深度學習的「標準件」，正在被逐個拆掉