挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
藝恩觀察:視頻AI訓(xùn)練數(shù)據(jù)告急:公網(wǎng)視頻"吃完了",下一批從哪來(lái)?
當(dāng)Sora 2、可靈3.0、Veo 3.1等前沿視頻生成模型加速迭代時(shí),一個(gè)被行業(yè)刻意回避的問(wèn)題正在浮出水面——訓(xùn)練數(shù)據(jù)從哪來(lái)?
OpenAI在Sora 2的系統(tǒng)卡里僅用41個(gè)字描述訓(xùn)練數(shù)據(jù)來(lái)源,未披露任何數(shù)據(jù)集名稱與規(guī)模。同期,NVIDIA Cosmos亮出2000萬(wàn)小時(shí)、9000萬(wàn)億token的訓(xùn)練規(guī)模,騰訊HunyuanVideo公開(kāi)了億級(jí)切片的訓(xùn)練流程——前沿模型跑得越快,"用什么訓(xùn)的"反而越說(shuō)不清。
多模態(tài)數(shù)據(jù)集服務(wù)商藝恩在近日發(fā)布的行業(yè)觀察中指出:對(duì)任何一家正在做視頻生成或世界模型的公司來(lái)說(shuō),真正的問(wèn)題不是"下一代模型要多大",而是"下一批訓(xùn)練數(shù)據(jù)從哪兒來(lái)"。
瓶頸一:公開(kāi)數(shù)據(jù)正在見(jiàn)底
Epoch AI在2024年ICML論文中估算,經(jīng)質(zhì)量修正后的公開(kāi)人類文本約300萬(wàn)億token,按當(dāng)前消耗速度將在2026至2032年間用完。視頻領(lǐng)域雖無(wú)等價(jià)研究,但可反向推算:NVIDIA Cosmos的2000萬(wàn)小時(shí)訓(xùn)練語(yǔ)料,大致相當(dāng)于YouTube全球27天的全部上傳量。
公網(wǎng)視頻不是不夠多,是不夠好。質(zhì)量、密度、信號(hào)均不足以支撐下一代模型。Meta V-JEPA 2訓(xùn)練用了"100萬(wàn)小時(shí)以上互聯(lián)網(wǎng)視頻加少量交互數(shù)據(jù)"——前一項(xiàng)是已做到的規(guī)模,后一項(xiàng)才是真正的瓶頸。

圖 1 · 前沿視頻模型訓(xùn)練數(shù)據(jù)公開(kāi)披露度對(duì)比
瓶頸二:4D與多視角數(shù)據(jù),公網(wǎng)里幾乎沒(méi)有
世界模型陣營(yíng)已將此點(diǎn)明。Meta LeCun在V-JEPA 2論文中指出,"以觀察為主學(xué)習(xí)世界"需結(jié)合互聯(lián)網(wǎng)視頻與交互數(shù)據(jù);斯坦福Fei-Fei Li更直言:"空間智能的數(shù)據(jù)都在我們腦子里,不像語(yǔ)言可直接獲取。"
目前公開(kāi)4D數(shù)據(jù)集規(guī)模有限——上海AI Lab的DNA-Rendering提供6750萬(wàn)幀多視角語(yǔ)料,Google Stereo4D挖出11萬(wàn)個(gè)4D片段——相比千萬(wàn)小時(shí)級(jí)2D視頻,小兩到三個(gè)數(shù)量級(jí),且高度集中在人體、自動(dòng)駕駛、室內(nèi)機(jī)器人三個(gè)窄域。
資本已用腳投票。2026年初,F(xiàn)ei-Fei Li的World Labs獲10億美元融資,LeCun創(chuàng)立的AMI Labs完成10.3億美元種子輪,兩筆合計(jì)20億美元,核心押注均指向——為"理解物理世界"準(zhǔn)備數(shù)據(jù)。

圖 2 · 視頻訓(xùn)練數(shù)據(jù)的三個(gè)結(jié)構(gòu)性缺口
瓶頸三:電影級(jí)數(shù)據(jù)開(kāi)始被定價(jià)
帶導(dǎo)演意圖的視頻正在成為稀缺資源。阿里Wan 2.2按光線、色調(diào)、構(gòu)圖等幾十維標(biāo)注訓(xùn)練數(shù)據(jù);Google Veo 3紅隊(duì)報(bào)告顯示其輸出"偏電影級(jí),常出現(xiàn)切鏡與戲劇性運(yùn)鏡"——背后必有高占比電影級(jí)語(yǔ)料支撐。
2025年12月,迪士尼以10億美元入股OpenAI,200余個(gè)IP角色被納入Sora生成范圍,雖僅授權(quán)"輸出生成權(quán)"而非"訓(xùn)練權(quán)",但這是好萊塢與視頻AI首次以IP+現(xiàn)金+股權(quán)方式將內(nèi)容擺上談判桌。
國(guó)內(nèi)方面,2025年1月愛(ài)奇藝起訴MiniMax的版權(quán)案仍在審理,索賠僅10萬(wàn)元,但作為中國(guó)首例視頻平臺(tái)訴AI模型案,信號(hào)意義遠(yuǎn)超金額本身。
藝恩判斷:下一步不在公網(wǎng)
藝恩在觀察中給出明確判斷:"再加10倍數(shù)據(jù)"的方向,不在公網(wǎng),而在三條路——
第一條是仿真合成路線,以NVIDIA Cosmos為代表,用物理仿真與機(jī)器人采集數(shù)據(jù)替代真實(shí)視頻;
第二條是精標(biāo)注路線,以Wan 2.2為代表,給現(xiàn)有視頻疊加電影級(jí)結(jié)構(gòu)化標(biāo)注;
第三條是IP采購(gòu)路線,以迪士尼-OpenAI為代表,真金白銀買入版權(quán)清晰的優(yōu)質(zhì)內(nèi)容。
三條路有一個(gè)共同特征:垂類、有授權(quán)鏈、有結(jié)構(gòu)化標(biāo)注。 藝恩認(rèn)為,這已不是數(shù)據(jù)工程問(wèn)題,而是戰(zhàn)略采購(gòu)問(wèn)題——決定它的不是工程團(tuán)隊(duì)的吞吐能力,而是組織能否搭出一條"合規(guī)可溯源+多模態(tài)標(biāo)注+持續(xù)更新"的供給體系。

圖 3 · 2025-2026 圍繞「視頻訓(xùn)練數(shù)據(jù)」的資本與合規(guī)節(jié)點(diǎn)
藝恩方面表示,其在影視綜藝、社媒、電商領(lǐng)域有超過(guò)10年的垂類數(shù)據(jù)積累,包括2.3B+條垂類視頻資產(chǎn)、1.2M+部影視綜藝授權(quán)片,以及多機(jī)位與4D采集能力和五維稠密標(biāo)注體系。在其看來(lái),行業(yè)面臨的不是"數(shù)據(jù)用完了",而是"數(shù)據(jù)該被重新定義"——下一代視頻模型需要的不是更多公網(wǎng)視頻,而是更結(jié)構(gòu)化、更可溯源、更接近真實(shí)物理世界的垂類語(yǔ)料。
相關(guān)閱讀
- 2026年商標(biāo)轉(zhuǎn)讓平臺(tái)這樣挑才靠譜,拒絕“問(wèn)題標(biāo)”和“隱形消費(fèi)”!
- 2026投標(biāo)找招標(biāo)信息工具選擇指南 精準(zhǔn)匹配標(biāo)訊降低漏標(biāo)風(fēng)險(xiǎn) 快速鎖定招標(biāo)項(xiàng)目
- 服務(wù)好、售后靠譜的全屋智能品牌有哪些?這家企業(yè)給出了深度答卷
- 深耕場(chǎng)景化聲學(xué)賽道,itc保倫股份榮登音響設(shè)備十大卓越品牌!
- 星凡智能與西安交通大學(xué)智能芯片團(tuán)隊(duì)達(dá)成深度產(chǎn)學(xué)研合作,讓AI芯片“邊用邊學(xué)”
- 2026工業(yè)級(jí)三維掃描儀十大品牌榜單
- 國(guó)產(chǎn)鮮奶爆紅中國(guó)香港:君樂(lè)寶悅鮮活拿下兩大權(quán)威獎(jiǎng)項(xiàng)
- 多點(diǎn)零磁通技術(shù)領(lǐng)銜:五大國(guó)產(chǎn)高精度磁通門電流傳感器廠家盤點(diǎn)
- 2026年6月鋁單板廠家深度洞察:產(chǎn)能為王時(shí)代,誰(shuí)在定義行業(yè)新標(biāo)準(zhǔn)?
- 2026年6月成都全屋定制工廠優(yōu)選指南:從設(shè)計(jì)到落地的全流程避坑攻略
推薦閱讀
快訊 更多
- 07-09 13:16 | 三重?zé)ㄐ拢瑔⒑轿磥?lái)——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線
- 04-10 11:21 | 為“首發(fā)經(jīng)濟(jì)”注入創(chuàng)新動(dòng)力,CMEF見(jiàn)證寬騰醫(yī)學(xué)影像技術(shù)革新
- 02-20 18:53 | 手機(jī)也要上HBM芯片?三星計(jì)劃推出移動(dòng)版HBM,預(yù)計(jì)首款產(chǎn)品2028年上市
- 12-30 16:40 | 國(guó)產(chǎn)首款DDR5內(nèi)存問(wèn)世!價(jià)格戰(zhàn)開(kāi)啟,復(fù)制長(zhǎng)江存儲(chǔ)擊敗三星路徑!
- 12-30 16:36 | 華為手機(jī)回歸第一年:全年銷量或超4000萬(wàn)臺(tái) 有望憑借Mate 70在高端市場(chǎng)擊敗蘋果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書》 擬投資設(shè)立漣水食用菌產(chǎn)業(yè)園項(xiàng)目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購(gòu)項(xiàng)目(標(biāo)段二)
- 11-26 18:14 | 健之佳擬用不超1億回購(gòu)公司股份 維護(hù)公司價(jià)值及股東權(quán)益
- 11-26 09:53 | 格靈深瞳收購(gòu)深圳市國(guó)科億道科技有限公司部分股權(quán)并增資5000萬(wàn)
- 11-26 09:37 | 煒岡科技擬以1.49億購(gòu)買衡所華威9.33%股權(quán) 華海誠(chéng)科擬發(fā)行可轉(zhuǎn)債收購(gòu)煒岡科技所持衡所華威股權(quán)
