藝恩觀察：視頻AI訓(xùn)練數(shù)據(jù)告急：公網(wǎng)視頻"吃完了"，下一批從哪來(lái)？

2026/6/3 10:07:30

當(dāng)Sora 2、可靈3.0、Veo 3.1等前沿視頻生成模型加速迭代時(shí)，一個(gè)被行業(yè)刻意回避的問(wèn)題正在浮出水面——訓(xùn)練數(shù)據(jù)從哪來(lái)？

OpenAI在Sora 2的系統(tǒng)卡里僅用41個(gè)字描述訓(xùn)練數(shù)據(jù)來(lái)源，未披露任何數(shù)據(jù)集名稱與規(guī)模。同期，NVIDIA Cosmos亮出2000萬(wàn)小時(shí)、9000萬(wàn)億token的訓(xùn)練規(guī)模，騰訊HunyuanVideo公開(kāi)了億級(jí)切片的訓(xùn)練流程——前沿模型跑得越快，"用什么訓(xùn)的"反而越說(shuō)不清。

多模態(tài)數(shù)據(jù)集服務(wù)商藝恩在近日發(fā)布的行業(yè)觀察中指出：對(duì)任何一家正在做視頻生成或世界模型的公司來(lái)說(shuō)，真正的問(wèn)題不是"下一代模型要多大"，而是"下一批訓(xùn)練數(shù)據(jù)從哪兒來(lái)"。

瓶頸一：公開(kāi)數(shù)據(jù)正在見(jiàn)底

Epoch AI在2024年ICML論文中估算，經(jīng)質(zhì)量修正后的公開(kāi)人類文本約300萬(wàn)億token，按當(dāng)前消耗速度將在2026至2032年間用完。視頻領(lǐng)域雖無(wú)等價(jià)研究，但可反向推算：NVIDIA Cosmos的2000萬(wàn)小時(shí)訓(xùn)練語(yǔ)料，大致相當(dāng)于YouTube全球27天的全部上傳量。

公網(wǎng)視頻不是不夠多，是不夠好。質(zhì)量、密度、信號(hào)均不足以支撐下一代模型。Meta V-JEPA 2訓(xùn)練用了"100萬(wàn)小時(shí)以上互聯(lián)網(wǎng)視頻加少量交互數(shù)據(jù)"——前一項(xiàng)是已做到的規(guī)模，后一項(xiàng)才是真正的瓶頸。

圖 1 · 前沿視頻模型訓(xùn)練數(shù)據(jù)公開(kāi)披露度對(duì)比

瓶頸二：4D與多視角數(shù)據(jù)，公網(wǎng)里幾乎沒(méi)有

世界模型陣營(yíng)已將此點(diǎn)明。Meta LeCun在V-JEPA 2論文中指出，"以觀察為主學(xué)習(xí)世界"需結(jié)合互聯(lián)網(wǎng)視頻與交互數(shù)據(jù)；斯坦福Fei-Fei Li更直言："空間智能的數(shù)據(jù)都在我們腦子里，不像語(yǔ)言可直接獲取。"

目前公開(kāi)4D數(shù)據(jù)集規(guī)模有限——上海AI Lab的DNA-Rendering提供6750萬(wàn)幀多視角語(yǔ)料，Google Stereo4D挖出11萬(wàn)個(gè)4D片段——相比千萬(wàn)小時(shí)級(jí)2D視頻，小兩到三個(gè)數(shù)量級(jí)，且高度集中在人體、自動(dòng)駕駛、室內(nèi)機(jī)器人三個(gè)窄域。

資本已用腳投票。2026年初，F(xiàn)ei-Fei Li的World Labs獲10億美元融資，LeCun創(chuàng)立的AMI Labs完成10.3億美元種子輪，兩筆合計(jì)20億美元，核心押注均指向——為"理解物理世界"準(zhǔn)備數(shù)據(jù)。

圖 2 · 視頻訓(xùn)練數(shù)據(jù)的三個(gè)結(jié)構(gòu)性缺口

瓶頸三：電影級(jí)數(shù)據(jù)開(kāi)始被定價(jià)

帶導(dǎo)演意圖的視頻正在成為稀缺資源。阿里Wan 2.2按光線、色調(diào)、構(gòu)圖等幾十維標(biāo)注訓(xùn)練數(shù)據(jù)；Google Veo 3紅隊(duì)報(bào)告顯示其輸出"偏電影級(jí)，常出現(xiàn)切鏡與戲劇性運(yùn)鏡"——背后必有高占比電影級(jí)語(yǔ)料支撐。

2025年12月，迪士尼以10億美元入股OpenAI，200余個(gè)IP角色被納入Sora生成范圍，雖僅授權(quán)"輸出生成權(quán)"而非"訓(xùn)練權(quán)"，但這是好萊塢與視頻AI首次以IP+現(xiàn)金+股權(quán)方式將內(nèi)容擺上談判桌。

國(guó)內(nèi)方面，2025年1月愛(ài)奇藝起訴MiniMax的版權(quán)案仍在審理，索賠僅10萬(wàn)元，但作為中國(guó)首例視頻平臺(tái)訴AI模型案，信號(hào)意義遠(yuǎn)超金額本身。

藝恩判斷：下一步不在公網(wǎng)

藝恩在觀察中給出明確判斷："再加10倍數(shù)據(jù)"的方向，不在公網(wǎng)，而在三條路——

第一條是仿真合成路線，以NVIDIA Cosmos為代表，用物理仿真與機(jī)器人采集數(shù)據(jù)替代真實(shí)視頻；

第二條是精標(biāo)注路線，以Wan 2.2為代表，給現(xiàn)有視頻疊加電影級(jí)結(jié)構(gòu)化標(biāo)注；

第三條是IP采購(gòu)路線，以迪士尼-OpenAI為代表，真金白銀買入版權(quán)清晰的優(yōu)質(zhì)內(nèi)容。

三條路有一個(gè)共同特征：垂類、有授權(quán)鏈、有結(jié)構(gòu)化標(biāo)注。藝恩認(rèn)為，這已不是數(shù)據(jù)工程問(wèn)題，而是戰(zhàn)略采購(gòu)問(wèn)題——決定它的不是工程團(tuán)隊(duì)的吞吐能力，而是組織能否搭出一條"合規(guī)可溯源+多模態(tài)標(biāo)注+持續(xù)更新"的供給體系。

圖 3 · 2025-2026 圍繞「視頻訓(xùn)練數(shù)據(jù)」的資本與合規(guī)節(jié)點(diǎn)

藝恩方面表示，其在影視綜藝、社媒、電商領(lǐng)域有超過(guò)10年的垂類數(shù)據(jù)積累，包括2.3B+條垂類視頻資產(chǎn)、1.2M+部影視綜藝授權(quán)片，以及多機(jī)位與4D采集能力和五維稠密標(biāo)注體系。在其看來(lái)，行業(yè)面臨的不是"數(shù)據(jù)用完了"，而是"數(shù)據(jù)該被重新定義"——下一代視頻模型需要的不是更多公網(wǎng)視頻，而是更結(jié)構(gòu)化、更可溯源、更接近真實(shí)物理世界的垂類語(yǔ)料。

AI訓(xùn)練數(shù)據(jù)

相關(guān)閱讀