騰訊混元3D，AI平權(quán)讓人人成了“造物者”

原創(chuàng) 贊收藏 評(píng)論

舉報(bào) 2025-05-12

掃描,分享朋友圈

“造物者”并非一定就是神學(xué)，今天，AI也可以顛覆你的想象空間！

一個(gè)簡(jiǎn)單的例子是，打開騰訊混元3D版本生成界面，輸入“充滿戰(zhàn)斗力的人物英雄”——30秒后，4套完整3D模型隨即清晰可見，附帶骨骼綁定和力量動(dòng)畫。

確實(shí)有這么快和逼真，用騰訊3D混元，或許你甚至不用成為專業(yè)的設(shè)計(jì)師，也能得到想要的3D圖紙和動(dòng)畫設(shè)計(jì)。

這究竟是如何實(shí)現(xiàn)的？

實(shí)際上，這種能力源于騰訊混元3D所開放的智能AI生產(chǎn)能力，數(shù)字平權(quán)下，每個(gè)人好像都可以是“造物者”。

無(wú)獨(dú)有偶，近期，騰訊混元3D又迎來(lái)了再次升級(jí)，從 v2.0 版本到 v.2.5 版本，據(jù)騰訊宣稱 v2.5 版本在建模精細(xì)度上得到了大幅提升。

由此可見，騰訊的多模態(tài)Agent商業(yè)應(yīng)用落地正在做加速度了。

01

—

快、真，騰訊混元3D解放想象力

3D技術(shù)由來(lái)已久，從20世紀(jì)開始，3D打印就被應(yīng)用到工業(yè)設(shè)計(jì)中，不過(guò)彼時(shí)人類掌握的3D能力，既面臨速度效率上等等困擾，也有成本和質(zhì)量上的不堪。

“不成型的模樣和反復(fù)地加工調(diào)試修改”，幾乎是常態(tài)。

但在通用人工智能時(shí)代，3D模型技術(shù)徹底變了，這里，可以暫且將其比喻為一種功能革命，即從解耦生成與全鏈路生產(chǎn)力。通俗地理解，就是3D從諾基亞時(shí)代橫跨到了iPhone4時(shí)代。

其中，諸多內(nèi)卷的大模型里，騰訊3D混元似乎更具實(shí)力。3月，一份來(lái)自全球知名AI模型評(píng)測(cè)平臺(tái)Chatbot Arena公布的最新排名顯示，騰訊混元成為唯二刷新榜單的大模型之一，首次闖入全球Top 15。

能取得不錯(cuò)的成績(jī)，騰訊3D混又是如何做到的？

不妨來(lái)從測(cè)試體驗(yàn)中尋求答案。先以有著全中國(guó)最為復(fù)雜城市建筑結(jié)構(gòu)的重慶為例，將這座3D魔幻城市的地標(biāo)樓體嵌入其中進(jìn)行3D生成。

體驗(yàn)鏈接：https://3d.hunyuan.tencent.com/

開源地址：https://huggingface.co/spaces/tencent

（1）選擇→重慶來(lái)福士地標(biāo)圖

（2）進(jìn)行圖生3D操作輸入

（3）輸出圖

因此，可以得出一個(gè)結(jié)論：城市夜景燈色效果得到遷移，建筑物體結(jié)構(gòu)和細(xì)節(jié)之處的紋路被以肉眼可見的清晰度復(fù)制，即便是旁邊的游客，也形成與之呼應(yīng)的仿真人物。山城重慶的立體美感在騰訊混元3D大模型上得到淋漓盡致地展現(xiàn)。

接下來(lái)選擇一個(gè)最近網(wǎng)絡(luò)上很有人氣的大橘為例。

（1）輸入文字指令

（2）輸出

生成出來(lái)的大橘在法線圖，眼睛、身軀、胡須等方面都有非常清晰的輪廓和細(xì)節(jié)結(jié)構(gòu)。

體驗(yàn)后的感受并不復(fù)雜，一是很快，二是很逼真?？炷芙鉀Q創(chuàng)作者的時(shí)效痛點(diǎn)，逼真則源于對(duì)質(zhì)量的要求。混元3D的核心差異化，恰好就在于其“幾何與紋理解耦生成”的技術(shù)架構(gòu)，換句話講，幾何大模型（Hunyuan3D-DiT）專注物體結(jié)構(gòu)與空間邏輯，能高效、精準(zhǔn)模擬出工業(yè)級(jí)精度。

再舉個(gè)案例，某新能源車企測(cè)試顯示，其生成的齒輪組模型齒距誤差僅0.03毫米，可直接用于物理仿真。而紋理大模型（Hunyuan3D-Paint）則像數(shù)字世界的“材質(zhì)魔術(shù)師”，訓(xùn)練數(shù)據(jù)包含8.7億張微觀攝影圖，能還原鐵銹氧化痕跡甚至織物纖維斷裂細(xì)節(jié)。

這種分工模式帶來(lái)的質(zhì)變，在游戲行業(yè)同樣也很顯著。對(duì)于一些游戲研發(fā)者而言，過(guò)去制作一個(gè)符合行業(yè)標(biāo)準(zhǔn)的3D角色需5—10天，現(xiàn)在AI生成框架加人工微調(diào)僅需1～2天。更關(guān)鍵的是“智能面數(shù)分配”：系統(tǒng)自動(dòng)將50%面數(shù)集中于角色面部，30%用于上半身，下肢僅占20%——這與資深美術(shù)師的經(jīng)驗(yàn)完全一致。

從每一位使用者的感知看，騰訊3D混元帶來(lái)的最大不同是體驗(yàn)平民化，讓3D模型從專業(yè)工具到簡(jiǎn)易型的全民創(chuàng)作。從產(chǎn)品使用角度看，有3個(gè)功能變化是能佐證這一觀點(diǎn)的：

①　多視圖輸入：上傳2—4張圖片，AI自動(dòng)補(bǔ)全被遮擋區(qū)域，解決傳統(tǒng)建模需多角度拍攝的繁瑣；

②　智能減面：將模型面數(shù)從數(shù)千優(yōu)化至數(shù)百，并保持細(xì)節(jié)平滑，移動(dòng)端渲染效率提升多倍；

③　骨骼綁定自動(dòng)化：上傳模型即可一鍵生成跑步、揮手等預(yù)設(shè)動(dòng)畫。

也正因如此，一些獨(dú)立開發(fā)者才在試用混元3D制作休閑游戲道具后感嘆：“過(guò)去外包一個(gè)Q版角色要花3000元，現(xiàn)在AI生成加微調(diào)成本不到100元?！?/span>

而這種技術(shù)平權(quán)，正在打破不少行業(yè)形成的資源壟斷格局。

02

—

萬(wàn)億參數(shù)底座上構(gòu)建的AI能力

騰訊混元3D所帶來(lái)的快和逼真的極致體驗(yàn)，其背后并非只是產(chǎn)品優(yōu)化現(xiàn)象，往深處扒不難發(fā)現(xiàn)，它植根于騰訊混元大模型的萬(wàn)億級(jí)參數(shù)土壤。在早前的中文大模型競(jìng)技場(chǎng)CLUE評(píng)測(cè)中，該模型的空間推理能力超過(guò)GPT-4 Turbo，處理“設(shè)計(jì)可折疊太空咖啡杯”等復(fù)雜指令時(shí)展現(xiàn)出工程化思維。

公開資料顯示，支撐這一切的是騰訊特有的混合專家模型（MoE）架構(gòu)，據(jù)悉該架構(gòu)擁有3890億參數(shù)規(guī)模，推理成本較稠密模型降低70%，再配合星脈高性能計(jì)算網(wǎng)絡(luò)，借助自研AngelPTM框架，訓(xùn)練速度達(dá)主流框架2.6倍，由此，騰訊混元3D模型逐步形成了數(shù)據(jù)飛輪效應(yīng)，即用戶生成的3D模型持續(xù)反哺訓(xùn)練，最終建立其技術(shù)護(hù)城河。

此前的騰訊財(cái)報(bào)數(shù)據(jù)顯示，公司2024年研發(fā)投入達(dá)706.9億元，資本開支同比增長(zhǎng)221%至767億元，創(chuàng)歷史新高。按目前升級(jí)后的模型測(cè)試結(jié)果看，可以推斷出騰訊在大模型方面的投入無(wú)疑相當(dāng)大。

不過(guò)騰訊的野心不止于工具輸出。

自2024年11月開源Hunyuan3D-1.0以來(lái)，GitHub星標(biāo)數(shù)三個(gè)月破萬(wàn)，8000余家開發(fā)機(jī)構(gòu)接入；2.0版本則進(jìn)一步開放幾何/紋理模型權(quán)重，開發(fā)者可自由組合生成管線；而2.5版本在建模精細(xì)度上進(jìn)一步大幅提升，有效幾何分辨率達(dá)到1024，從標(biāo)清升級(jí)到了高清畫質(zhì)。另外，在模型架構(gòu)上，混元3D v2.5總參數(shù)量從1B提升至10B，有效面片數(shù)增加超10倍，同時(shí)免費(fèi)生成額度翻倍，提升至每天20次。

由此可見，騰訊的“訓(xùn)練推理參數(shù)”與“開源換生態(tài)”的雙向策略，與AWS早期路徑如出一轍。更深遠(yuǎn)的布局在于數(shù)據(jù)標(biāo)準(zhǔn)。當(dāng)數(shù)百萬(wàn)開發(fā)者使用混元3D輸出HMF格式文件時(shí)，騰訊悄然成為3D內(nèi)容交互的事實(shí)標(biāo)準(zhǔn)制定者——這正是其在大模型競(jìng)賽中的關(guān)鍵籌碼。

有消息稱，騰訊近期還針對(duì)混元大模型的研發(fā)體系進(jìn)行了全面重組，主要圍繞算力、算法和數(shù)據(jù)三大核心板塊刷新團(tuán)隊(duì)部署，加碼研發(fā)投入。

此次調(diào)整后，騰訊的數(shù)據(jù)和平臺(tái)底座能力將得到明顯加強(qiáng)。例如，大語(yǔ)言模型部和多模態(tài)模型部，分別負(fù)責(zé)探索大語(yǔ)言模型和多模態(tài)大模型的前沿技術(shù)，持續(xù)迭代基礎(chǔ)模型，提升模型能力。同時(shí)進(jìn)一步加強(qiáng)大模型數(shù)據(jù)能力和平臺(tái)底座建設(shè)，其中數(shù)據(jù)平臺(tái)部專注大模型數(shù)據(jù)全流程管理與建設(shè)，機(jī)器學(xué)習(xí)平臺(tái)部則聚焦機(jī)器學(xué)習(xí)與大數(shù)據(jù)融合平臺(tái)建設(shè)，為AI模型訓(xùn)練推理、大數(shù)據(jù)業(yè)務(wù)提供全面高效的PaaS平臺(tái)底座，共同支撐騰訊混元大模型技術(shù)研發(fā)。

長(zhǎng)遠(yuǎn)看，混元3D的創(chuàng)新，最終還是要體現(xiàn)在商業(yè)應(yīng)用和回報(bào)上，這是每一家AI公司在大模型發(fā)展道路上不約而同的訴求。

03

—

走向更縱深的3D商業(yè)場(chǎng)景

馬化騰曾稱，“我們相信這些加大的投資，會(huì)通過(guò)提升廣告業(yè)務(wù)的效率及游戲的生命周期而帶來(lái)持續(xù)的回報(bào)，并隨著我們個(gè)人AI應(yīng)用的加速普及和更多企業(yè)采用我們的AI服務(wù)，創(chuàng)造更長(zhǎng)遠(yuǎn)的價(jià)值?！?/span>

我們可以試圖簡(jiǎn)單地理解這句話，騰訊通過(guò)對(duì)混元3D模型的持續(xù)升級(jí)和投資，并推動(dòng)更多客戶的使用，從而為騰訊帶來(lái)在AI端業(yè)務(wù)的增長(zhǎng)動(dòng)力。

目前，騰訊混元大模型已在700 多個(gè)內(nèi)部場(chǎng)景中得到部署，同時(shí)考慮到騰訊正積極整合前沿開源生態(tài)系統(tǒng)，待下一季度財(cái)報(bào)出爐時(shí)，或?qū)⒏?/span>顯著的看見混元3D為公司業(yè)務(wù)帶來(lái)的有利變化。

即便從長(zhǎng)期看，全球3D建模市場(chǎng)規(guī)模也足夠大，據(jù)國(guó)際數(shù)字內(nèi)容協(xié)會(huì)統(tǒng)計(jì)，這一單一市場(chǎng)將在2025年突破210億美元。混元3D的商業(yè)化路徑也初見端倪。

短期內(nèi)，混元3D或主要以企業(yè)API調(diào)用和企業(yè)訂閱制為主，長(zhǎng)期看，工業(yè)、游戲等成為大模型落地的香餑餑行業(yè)，以游戲行業(yè)為例，中小團(tuán)隊(duì)?wèi){混元3D工具可以很快實(shí)現(xiàn)“創(chuàng)意平權(quán)”，而國(guó)內(nèi)又有百萬(wàn)級(jí)游戲從業(yè)者，背后是百億乃至千億級(jí)的市場(chǎng)。

如果將目標(biāo)放至蛋糕紅利更大的自動(dòng)駕駛領(lǐng)域，混元3D的商業(yè)應(yīng)用價(jià)值在于，通過(guò)3D物理虛擬模擬車禍、極端天氣等罕見路況來(lái)驅(qū)動(dòng)車企的成本下降和算法迭代，能夠幫助廠商們改進(jìn)產(chǎn)品技術(shù)和服務(wù)質(zhì)量。其內(nèi)在邏輯是，兩者之間完全是一種互補(bǔ)關(guān)系，一方面車企很難在現(xiàn)實(shí)中采集到全面、多樣的訓(xùn)練數(shù)據(jù)，AI生成的3D模型卻能夠補(bǔ)充這種能力。

至于其他AR、VR、線上展館等領(lǐng)域，同樣也將是未來(lái)騰訊混元3D的落地方向，這是基于騰訊自身在娛樂、廣告、社交等業(yè)務(wù)方面的沉淀而得出的結(jié)論。

海外市場(chǎng)也不容小視。去年騰訊公司海外收入達(dá)到580億元，同比增長(zhǎng)9%，其中海外游戲廠牌Supercell的游戲人氣大增，實(shí)現(xiàn)活躍用戶和游戲流水的明顯增長(zhǎng)。如果混元3D生成模型被進(jìn)一步應(yīng)用在游戲3D資產(chǎn)生成等場(chǎng)景，將有效刺激海外游戲玩家規(guī)模的穩(wěn)步增長(zhǎng)，這幾乎是確定性事件。

上述現(xiàn)狀表明，騰訊混元3D在體驗(yàn)上的超預(yù)期表現(xiàn)和在底座數(shù)據(jù)、平臺(tái)能力上形成的基石，構(gòu)建起了該模型在未來(lái)的長(zhǎng)期回報(bào)效應(yīng)。因?yàn)楫?dāng)人人都可以在數(shù)字平權(quán)下成為“造物者”時(shí)，商業(yè)價(jià)值就變得更加清晰可見。

2.5版本并不是終結(jié)者，未來(lái)或許還有更多驚喜。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表數(shù)英立場(chǎng)。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載，授權(quán)事宜請(qǐng)聯(lián)系作者本人，侵權(quán)必究。