分類頻道

生成式AI

210 篇文章,依最新發布時間排序。

IT之家生成式AI

全球最強開源生圖 AI 模型:Ideogram 4.0 登場

Ideogram 於6月3日正式發表4.0版本,這是一款採用開放權重架構的文字轉圖片生成模型,官方宣稱其為「全球最佳開源生圖AI模型」。開發人員與研究人員可下載模型權重進行本地部署與二次開發,此舉有望進一步拉高開源模型的品質天花板。

3 小時前
雷峰網生成式AI

全球首個!材科源圖發佈有機高分子應用智能體

在人工智能重塑科研範式的科技浪潮中,因體系複雜、配方變量多,長期面臨高度依賴專家經驗、試錯成本高、知識難以沉澱複用等行業瓶頸,研發效率提升亟待突破。近日,據雷峰網瞭解,蘇州材科源圖(MatSource)正式發佈全球首個有機高分子材料研發應用智能體(Organic Polymer Agent)。該智能體依託自主構建的通用材料科學智能體框架(Materials Agent Framework),面向高分子材料研發場景打造專家級人工智能系統,推動“人工驅動”向“人工智能協同驅動”加速躍遷,為高新材料的高效自主研發提供了關鍵的技術支撐。01 面向複雜研發場景,構建高分子材料研發“智能中樞”作為材科源圖(MatSource) 材料科學智能體體系的重要組成部分,有機高分子應用智能體聚焦高分子材料研發中的關鍵痛點,融合材料知識圖譜、多模態數據理解、大模型推理與領域機理模型能力,構建覆蓋“設計-預測-優化-決策”的全流程智能研發體系。依託這一技術架構,系統可實現高分子分子結構設計與性能預測、配方體系智能生成與多目標優化、工藝參數推薦與實驗路徑規劃,以及文獻知識解析、研發知識沉澱等核心功能,推動專家經驗向數字化能力轉化。通過“知識+模型+工具”的深度協同,顯著提升研發效率與決策質量,為行業由傳統“經驗驅動”向“智能驅動”轉型提供新的技術路徑。02 率先落地光刻膠,完成產業級驗證作為有機高分子材料中技術壁壘最高、研發難度最大的典型代表,光刻膠成為該智能體的首個驗證場景。目前,系統已完成在ArF光刻膠研發場景中的實測驗證,實現從樹脂設計、配方篩選到性能預測的全流程支持,並完成關鍵指標驗證,證明瞭其在複雜有機高分子體系中的工程化能力與應用價值。這意味著,材科源圖(MatSource)不僅驗證了“AI+高分子材料”的技術可行性,也打通了從實驗室研發到產業應用的關鍵路徑。03 從ArF到EUV,持續拓

4 小時前
雷峰網生成式AI

不卷價格和參數,中國汽車如何賣到5000萬輛?

2026年,國內新能源汽車滲透率突破60%,中國汽車品牌的售價提升到80萬元。中國乘聯會秘書長崔東樹說,國產車未來要達到5000萬輛銷售規模,在全球市場中,佔比超過50%。中國汽車越過規模大關,但高速發展之下,行業參數內卷、體驗同質化、盈利承壓等痛點日益凸顯。第四屆未來汽車先行者大會上,奇瑞副總經理王琅直言,行業進入新的“無人區”,不能再卷參數了。跳出價格與參數之外,國產車如何尋找下一個增長點?01元戎啟行周光:智駕幾十公里接管一次和1000公里接管一次,是兩個物種最近幾年,智駕行業的技術重心從端到端、VLA向著大模型、基座模型和物理AI快速迭代。元戎啟行CEO周光分享了他對物理AI基座模型的思考。他認為,過去5年,智駕行業走的是小模型路線,已經到了能力的上限,投入越來越多,提升越來越慢。這個現象可以用“蹺蹺板效應”來形容:在小模型系統裡,當一個版本解決了上海、武漢等城市的問題,可能就會在深圳、廣州等地效果變差,引入新問題。版本之間因此要反反覆覆地修改。周光說,這種蹺蹺板效應在行業中非常普遍,這也是用戶難以長期信任這個系統的原因。2026年,行業認知進入到大模型階段。周光解釋,大模型並不是一個更大的小模型,而是有一整套技術邏輯,在技術棧、網絡結構、訓練方式和模式上都有變化。他舉了一個例子,來說明大模型和小模型的認知區別。假設一條狗被染上斑馬的條紋,小模型會識別為一隻斑馬;但大模型會作出這是一隻狗的判斷。“小模型擅長條件反射、局部特徵相應,大模型擅長高級認知”,周光總結。自動駕駛從一開始的被激活,城區安全接管,再到更高的認知理解,做到像人一樣的整體判斷和泛化能力,需要從執行系統升級到認知系統。周光判斷,今年年底到明年初,行業裡會迎來從小模型到大模型、基座模型的轉換浪潮。技術陡峭升級,大模型成為智駕發展的下一個技術範式。他透露,元戎啟行很早就判斷要全面擁抱大模型和多模態,202

6 小時前
IT之家生成式AI

奧爾特曼:OpenAI 內部有人每月用掉約 1000 億個詞元

從六年前月耗十萬詞元到如今月耗千億,OpenAI 的詞元消耗量呈爆炸式增長。公司內部設有消耗排行榜,員工甚至曬圖炫耀,與亞馬遜等嚴控成本的企業形成鮮明對比。奧爾特曼承認成本已成難題,正尋求降本增效。 #AI 成本# #詞元消耗#

7 小時前
雷峰網生成式AI

面壁智能「開源周」:一場定義端側 AI 終局的系統性「亮劍」

一場罕見的「技術組曲」。 作者丨馬曉寧 編輯丨林覺民 難得能遇到一次大模型開源周。5 月 25 日至 29 日,面壁智能聯合 OpenBMB 開源社區,以每日發佈一項關鍵技術成果的節奏,舉辦了一場「端側大模型開源周」。這在中國乃至全球的大模型公司中,都是一次極為罕見的集體「亮劍」。從適配國產昇騰、未來有望將 600 億參數大模型裝進手機的 1.58-bit 低比特訓練大模型 BitCPM-CANN,到性能超越兩倍參數模型、全球同級最優的 MiniCPM5-1B;從 AI 親手編寫、在 H100 上比英偉達自家大模型訓練框架 Megatron 更快的 ForgeTrain,到重構交互範式的智能體操作系統 PilotDeck;最後,再到揭示端側模型高效智能源頭的核心數據集 UltraData 系列……這五項成果並非孤立的「技術煙花」,而是一套環環相扣、邏輯嚴密的「技術組曲」。它們共同指向一個清晰的行業事實:端側大模型的終局之戰,比拼的不是某個單點技術的拔群,而是覆蓋數據、算法、框架、應用的全鏈路系統工程的創新總和。面壁開源周,更迫使我們重新思考:在通往 AGI 的道路上,開源的真正價值是什麼?而端側,又將在其中扮演怎樣的角色?01為何開源周如此之少翻開過去三年的歷史,面壁之外,也僅有以「效率美學」著稱的 DeepSeek 在 2024 年(6月24日-28日)進行過類似的開源周活動。此外,雖然有些公司有過一週開源三款模型的記錄,但是還未曾冠以開源周的名義。做“開源周”,通常意味著一個機構需要在短時間內(一週)集中釋放大量、系統性的技術成果。這不僅僅是數量的堆砌,更關鍵的是質量的深度和規劃的體系性。無論是DeepSeek,還是面壁的開源周案例,我們可以這樣理解:刻意將發佈壓縮在5-7天內,每天甚至半天就有新項目放出。這需要背後有充足的項目儲備和成熟的發佈節奏規劃。這次面壁的開源,

7 小時前
雷峰網生成式AI

獨家|華為系幀躍科技完成千萬美金天使輪融資,將發佈視頻產品 Leadde

創始人楊昌鵬曾任華為雲媒體創新 Lab 首任主任、交互式媒體方向 1 號位。 作者丨馬曉寧 編輯丨林覺民 AI 科技評論獨家獲悉,主攻 AI 交互式視頻賽道的初創公司「幀躍科技」,已敲定一筆千萬美金級的天使輪融資。本輪投資方包括創新工場、國謙資本、零一萬物、璞躍中國及盈動資本等機構。資金將主要用於視頻推理平臺的持續迭代、應用層產品開發,以及全球化人才團隊建設。幀躍科技成立於 2025 年 6 月,錨定 AI 交互式視頻方向。創始人兼 CEO 楊昌鵬為南洋理工大學與加州大學伯克利分校聯合培養博士,曾任華為雲媒體創新 Lab 首任主任、交互式媒體方向 1 號位。在華為期間,他主導搭建了首個實時交互媒體基礎設施團隊,構建起涵蓋生成式視頻、實時渲染與物理引擎的底層技術體系,並曾憑藉媒體基礎設施領域的重大突破獲得號稱資源調度領域的"諾貝爾"獎 ——Franz Edelman 獎。聯合創始人兼 CTO 李明磊曾任華為雲多模態方向首席科學家,主導了華為初版盤古大模型的訓練,發表 40 餘篇 CCF-A 論文、擁有 50 餘項專利,3 次獲最佳論文獎、3 次斬獲世界級賽事冠軍,在多模態大模型研發、生成式模型訓練與工程化落地方面積累深厚。在交互式視頻賽道,幀躍科技的創始團隊配置稱得上稀缺。CEO 楊昌鵬長期深耕實時交互媒體基礎設施,兼具底層系統、實時渲染、物理引擎及產業級落地經驗;CTO 李明磊則主攻多模態大模型訓練與工程化,覆蓋從模型前沿研究到大規模系統落地的完整鏈條。一個偏基礎設施,一個偏模型,兩者結合構成了幀躍科技切入交互視頻深水區的關鍵底座。幀躍科技提出“三位一體”架構,認為下一代視頻生成需要三條路徑協同:第一,以 DiT 為代表的生成模型直接生成視頻內容;第二,通過代碼與程序化規則生成可控的視頻過程;第三,藉助三維空間、物理規則和實時渲染,生成具有空間一致性與物理真實感的視頻。幀躍

7 小時前
智東西生成式AI

他,僱AI賣房,多賺61萬

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,據《紐約時報》5月29日報道,該報科技記者斯圖爾特·湯普森(Stuart A. Thompson)近日完成了一場押上家庭最大一筆資產的實驗:不僱傭任何房產中介,幾乎全程依靠聊天機器人,賣掉了自家位於紐約州北部的一套房子。 該房子最終以略高於60萬美元(約合人民幣410萬元)成交,高於湯普森四年前約52萬美元(約合人民幣352萬元)的買入價。 算上高出報價的溢價和省下的約3.6萬美元(約合人民幣24萬元)佣金,他估算這次賣房比找中介多落袋逾9萬美元(約合人民幣61萬元)。 ▲ 湯普森發佈的推文分享其使用人工智能聊天機器人賣房的經歷(圖源:X) 湯普森算過一筆賬。這套房若走常規流程,他要分別向己方和買方中介各付約3%佣金,合計超過3萬美元(約合人民幣20萬元)。 而他這次用的主力工具,是一個每月收費7.99美元(約合人民幣54元)的谷歌Gemini聊天機器人,外加AI搜索公司Perplexity的瀏覽器。 更讓他意外的是,AI寫出的房源文案、郵件和談判話術專業到連同行都沒看穿。一名買方中介在電話裡反覆確認,堅持認為他本人就是資深房產經紀人。 一、幾位中介斷定這套房要虧著賣,他卻靠AI把掛牌、文案、定價全包了 湯普森和妻子四年前以約52萬美元(約合人民幣352萬元)買下這套位於哈德遜河谷的三居室、兩衛平層住宅,房子坐落在一英畝多的溼地上。今年3月,隨著第二個孩子即將出生,兩人決定換房。 起初他們打算和91%的賣房者一樣請一位中介,按自己在房產平臺Zillow上的粗略估算,房子大概能賣到55萬美元(約合人民幣372萬元)。 但幾位中介給出的反饋讓湯普森起了疑心。一家中介機構的算法模型估出的價格比他當初的買入價還低,另一位中介在他家廚房臺前一邊參觀一邊直言,這套房“很可能要虧錢”。與此同時,請中介的代價並不小,光是雙邊佣金就

8 小時前
智東西生成式AI

李飛飛看不下去了!親自下場“闢謠”世界模型

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,今日,斯坦福大學教授、空間智能創業公司World Labs聯合創始人兼CEO李飛飛(Fei-Fei Li)與團隊發佈新文章《世界模型的功能分類》,系統拆解了當下被廣泛使用卻釋義混亂的“世界模型”。 文章指出,計算機視覺、機器人、強化學習和生成式AI各領域的人士都宣稱其在研發世界模型,但各方所指內涵截然不同。李飛飛試圖從強化學習經典的POMDP(部分可觀測馬爾可夫決策過程)框架出發,為這一概念建立清晰的功能分類體系。 李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規劃器(planner)三大功能類別,並重點論證了在三者中受關注度最低的仿真器,恰恰具備最深遠的產業價值與最棘手的技術難題。 她進一步提出,三類模型底層共用同一套世界知識,當前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統世界基礎模型。 ▲李飛飛發佈《世界模型的功能分類》文章推文(圖源:X) 李飛飛在文中提出了以下幾個核心觀點: 1、世界模型已成為AI領域最重要、也最被濫用的術語之一,各領域所指內涵截然不同,亟需精準定義。 2、世界模型的技術定義源自強化學習的POMDP框架,即智能體、動作、環境狀態、觀測信息構成的交互閉環,各類世界模型本質都是這套閉環的不同實現方向。 3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規律的環境狀態、規劃器輸出智能體的動作指令。 4、三類模型底層並不割裂,幾何、物理、動力學這套描述世界運行邏輯的基礎知識是三者共用的底層原理。 5、渲染器商業化最成熟但能力有上限,規劃器前景最受期待但尚處起步階段,仿真器關注度最低卻是銜接二者的橋樑與核心支柱。 6、仿真賽道集中了AI領域的諸多棘手難題,包括三維數據稀缺、仿真與現實的域差、生成式仿真的幾何隱

9 小時前
鈦媒體生成式AI

Edge AI Daily 早報(6月4日)

全球AI基礎設施支出預計達7250億美元,Alphabet通過850億美元破紀錄融資強化Google AI業務,微軟在Build 2026發佈七款自研MAI模型及完整智能代理棧,OpenAI將Codex重構為通用生產力平臺並推動前沿AI民主治理。NVIDIA聯合行業巨頭打造企業級自主AI代理,谷歌Gemini月活突破9億並即將推出3.5 Pro模型。

9 小時前
雷峰網生成式AI

藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式

北京,2026年6月2日——“知行無界・智啟未來——藍信 2026 AI 新品發佈會暨生態渠道大會” 在北京國家會議中心隆重召開。藍信現場重磅發佈聽藍AI錄音卡、藍域智能體平臺、知行AI超級助理三款原生 AI 產品,併發起成立政企智能辦公生態聯盟,以全鏈路、國產化、高安全屬性的智能辦公體系,正式定義政企AI辦公新範式,開啟政企智能辦公新徵程。北京市西城區人民政府黨組成員、副區長洪英子出席並致辭。她談到,人工智能是新一輪科技革命核心驅動力,政企數字化轉型已從“選擇題”變為“必答題”,安全與智能深度融合已成為關鍵要求。藍信作為行業標杆企業,此次發佈的全棧式安全智能辦公方案,是我國政企智能辦公產業發展的重要里程碑,將為各級黨政機關、企事業單位的數字化轉型提供有力支撐。中央黨校(國家行政學院)教授、博士生導師汪玉凱表示:人工智能正推動黨政機關從數字機關邁向智能機關新階段,核心是協同、服務、治理三維融合。當前轉型仍面臨數據壁壘、應用淺表、結構滯後、安全與制度不完善等挑戰。藍信依託自主可信的信創底層架構,服務上萬家政企、軍工及央企單位,是智慧機關建設不可或缺的基礎平臺,為各類AI智能體落地搭載築牢安全載體。 (奇安信集團董事長、中電藍信公司董事長 齊向東)奇安信集團董事長、中電藍信公司董事長齊向東表示,藍信自誕生起便深植安全基因,是兼具安全與智能雙核能力的數字化辦公平臺。平臺深度依託中國電子信創產業生態,憑藉成熟的安全合規體系與規模化落地能力,成為政企客戶實現安全智能化升級的優選方案。 (藍信CEO李榮泉)藍信CEO李榮泉在開幕致辭中提到,大語言模型和Agent技術的爆發,徹底終結了過去“數字化轉移”的時代,正在邁向一個由AI原生驅動、全域智能化重構的新紀元。他強調,在這波濤洶湧的AI浪潮中,政企客戶對AI的第一訴求是安全可信。“如果不能解決安全問題,AI這把極其鋒利的劍,就無法真正為

9 小時前
雷峰網生成式AI

UT Austin朱玉可:人形機器人的數據困局怎麼破?答案藏在「數據海綿」裡 |ICRA 2026

2026年6月3日,在ICRA 2026大會的主題演講環節,德克薩斯大學奧斯汀分校副教授、NVIDIA GEAR團隊負責人朱玉可(Yuke Zhu)發表了關於人形機器人基礎模型的最新演講。他在演講中系統性地拆解了當前人形機器人面臨的最大瓶頸——數據,並提出了以“數據金字塔”為框架、以“世界模型”為引擎的規模化路徑。朱玉可指出,人形機器人正在進入一個全新的加速階段:硬件日益成熟,學習算法和基礎模型的規模化也在快速推進。但真正制約這一領域從Demo走向大規模部署的,仍然是數據。真實機器人數據質量最高但極其稀缺,仿真數據可以無限生成但存在仿真到真實的鴻溝。為此,他提出了一個三層數據金字塔策略:底層是海量但被動的互聯網人類視頻數據,中層是可無限生成的合成數據,頂層是真實機器人數據。他的核心觀點是:不應押注單一數據源,而應以異質方式彙集三種數據,同時讓世界模型扮演“數據海綿”的角色,吸收並整合所有類型的數據。在具體實踐中,朱玉可展示了兩個典型案例:一是SONIC——利用大規模人類動作捕捉數據訓練人形機器人全身控制器,通過運動跟蹤目標大幅簡化了強化學習的獎勵函數設計,實現萬小時級別的規模化訓練;二是EgoScale——從第一人稱視角的人類視頻中學習,通過“預訓練獲取人類知識→對齊訓練壓縮知識→後訓練表達知識”的三階段方案,使得機器人僅需不到1%的真實機器人數據就能完成複雜操作任務。整場演講最令人振奮的結論,來自DreamZero世界動作(World Action Model,WAM)模型:通過將視頻生成模型轉化為動作生成器,純AI生成的虛擬軌跡在訓練價值上幾乎100%等效於真實物理數據。朱玉可最後強調,要推動整個領域前進,開源和開放是不可或缺的。NVIDIA已開源GR00T基礎模型、Isaac仿真框架及相關數據集,並剛剛發佈了首個H2 Plus參考平臺。 以下是朱玉可在ICRA 202

10 小時前
智東西生成式AI

Claude Code親授:4個轉變和3個原則,重建AI時代的工作方法

AI應用風向標(公眾號:ZhidxcomAI) 編譯|畢偉豪 編輯|漠影 當寫代碼不再是拖累,下一個阻礙會是什麼呢? 智東西6月4日報道,Claude Code團隊給出的答案是:驗證、代碼審查和安全檢查。這是Claude Code工程總監Fiona Fung發佈的最新博客,內容出自一個月前她的演講,博客中,她透露了Claude Code團隊“不容商榷”的核心原則。 這篇博客從一線團隊的角度出發,剖析了在Agent時代,整個工程流程所發生的變化,從規劃、背景信息獲取、代碼審查到團隊構成,每個環節都在發生深刻的改變,一些舊流程正在消失。 她提出了一個觀點:舊流程不會自己退出歷史舞臺,你必須主動淘汰它們。文章最有價值的地方在於,將每個舊流程和新流程都做了對照,為什麼淘汰,為什麼制定,很清晰。 一、規劃(Planning):6個月路線圖3個月就過時,團隊轉向即時規劃 在編程時間昂貴的年代,提前規劃是標配,Fiona Fung剛加入Claude Code團隊時,制定了一份相當完善的六個月路線圖。結果因為Claude Code自身進化太快,很多東西在第三個月就過時了。 團隊最新的的做法是轉向即時規劃(JIT planning),借鑑JIT編譯的概念:在正確的時間做恰到好處的規劃,規劃流程從設計文檔轉向PR討論和原型驗證。 由於整個行業發展變化的節奏太快,所以Claude Code團隊不會做太多產品評審,新流程變成:先做原型,讓大量內部用戶上手,然後根據反饋再持續改進。 二、背景信息收集(Context gathering):別找代碼作者了,直接問Claude 過去工程師遇到問題,第一步是找到寫代碼的人。但現在Claude Code團隊所有的PR都有Claude協助,如果還是和以前一樣問一下是誰寫的代碼,然後兩個工程師再一起討論,那不僅浪費了Claude的能力,也不足以支撐高速運轉的研發

12 小時前
雷峰網生成式AI

品牌出海大爆發!速賣通夏季大促品牌GMV滲透率近40%

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 品牌出海大爆發!速賣通夏季大促品牌GMV滲透率近40% 本文作者: 徐咪 2026-06-04 12:12 導語:阿里速賣通海外618大促於6月1日正式開啟。平臺數據顯示,開賣首日,速賣通Brand+品牌GMV滲透率已逼近40%,進一步確立品牌出海全新主場地位。通過為品牌提 阿里速賣通海外618大促於6月1日正式開啟。平臺數據顯示,開賣首日,速賣通Brand+品牌GMV滲透率已逼近40%,進一步確立品牌出海全新主場地位。通過為品牌提供差異化市場解決方案,速賣通歐洲、美國、巴西等核心市場迎來新品牌集中爆發,泳池機器人Seauto、水上運動Funwater、3D打印Anycubic及儲能電池Oukitel等黑馬品牌創下數倍乃至數十倍的高速增幅。此外,速賣通今年首次組建百大網紅矩陣助力品牌出海,在被稱為“西班牙李佳琦”的直播間內,3款中國數碼品牌開播僅3分鐘即售罄。 0人收藏 分享: 相關文章 阿里 速賣通 海外 品牌出海大爆發!速賣通Brand+滲透近40%,湧現多個黑 ... 宏利香港與阿里雲達成戰略合作,加速保險業AI規模化 ... CVPR 2026 Oral | 清華+阿里發佈ViT³:解鎖「視覺T ... Qwen3.7-Plus上線!多模態智能體新基座,一鍵復刻桌 ... 徐咪 編輯 發私信 當月熱門文章 OpenClaw預示未來:智能體角色範式轉變,AI需要具備執行能力 後摩智能M50助力聯想AI主機P7全球首發,引領1200億級大模型從雲端走進AI創新終端 聯想中國基礎設施業務上財年實現兩位數增長 劉軍解讀背後四大驅動力 端啟未來 萬物新生||江原科技攜新品亮相2026全球人工智能終端展

13 小時前

字節跳動開源Bernini框架:實現視頻生成與精準編輯的完美統一

字節跳動商業化技術團隊開源了視頻生成與編輯框架Bernini,核心採用“先理解、再生成”的協同機制,解決傳統模型因無法精準理解複雜指令導致的畫面失控和幀間閃爍問題。在字節自建測試中,Bernini已躋身行業第一梯隊。目前,推理代碼和第二階段模型Bernini-R權限已開放,全版本即將發佈。

16 小時前6200
Hugging Face Blog生成式AI

將 hf CLI 設計為與 Hub 協作的代理優化方式

hf 是 Hugging Face Hub 的官方命令列介面。您在 Python SDK 上能對 Hub 做的任何操作,現在都能在終端機中完成:下載與上傳模型、資料集和 Spaces;建立與管理儲存庫、分支、標籤及 Pull Request;在 HF 基礎架構上執行 Jobs;管理 Buckets、Collections、Webhooks 以及 Inference Endpoints。hf CLI 多年來主要為我們的使用者打造,但如今也越來越多被編碼代理(如 Claude Code、Codex、Cursor 等)所採用。因此我們重新設計它,讓它能同時滿足兩類使用者的需求。這篇部落格文章總結了我們所做的工作。

17 小時前
MarkTechPost AI生成式AI

Google DeepMind 推出 Gemma 4 12B:免編碼器多模態模型,原生支援音訊,可在 16GB 筆電上執行

Google DeepMind 今日正式釋出 Gemma 4 12B,這是一款密集多模態模型,完全捨棄傳統編碼器。視覺與音訊資料直接流入大型語言模型主幹。結果是:該模型能在配備 16GB RAM 的消費級筆電上執行代理工作流程。採用 Apache 2.0 授權釋出。 模型概述與取得方式 Gemma 4 12B 是一個 120 億參數的純解碼器 Transformer,原生處理文字、圖像、音訊與影片,無需獨立的視覺或音訊編碼器。解碼器結構與 Gemma 4 31B Dense 模型相同,銜接了邊緣友善的 E4B 與更大的 26B 混合專家變體之間的差距。 架構:統一的、免編碼器純解碼器 Transformer。 模態:文字、圖像、影片與原生音訊輸入——這是首款中等尺寸的 Gemma,具備…

23 小時前

專訪喬・韋曼:大模型收費是個好的商業模式嗎?

### 專訪喬・韋曼:大模型收費是個好的商業模式嗎? 在近期一場媒體專訪中,雲端經濟學家喬・韋曼針對 AI 大型語言模型的收費機制提出了深刻的觀察。隨著 ChatGPT、Claude 與 Gemini 等通用型模型陸續進入商用階段,廠商開始嘗試不同收費方式,如訂閱制、API 按用量計費、企業授權等。韋曼認為,這些模式的適用性並非一刀切,而是取決於模型本身的邊際成本、使用者場景與市場競爭結構。

1 天前