日韩午夜无码A级毛片亚洲A V|亚洲无码色情在线观看|亚洲日韩精品中文字幕第一区蜜臀|黄色毛片电影欧美大黄片|欧美成人欧美精品一级乱黄|久久婷婷六月综合内容|亚洲最大的成人网站|亚洲最全无码AV毛片|av无码在线免费|欧美VA视频第一Aⅴ网

×

掃碼關(guān)注微信公眾號(hào)

藝恩觀察:視頻AI訓(xùn)練數(shù)據(jù)告急:公網(wǎng)視頻"吃完了",下一批從哪來(lái)?

2026/6/3 10:07:30     

當(dāng)Sora 2、可靈3.0、Veo 3.1等前沿視頻生成模型加速迭代時(shí),一個(gè)被行業(yè)刻意回避的問(wèn)題正在浮出水面——訓(xùn)練數(shù)據(jù)從哪來(lái)?

OpenAI在Sora 2的系統(tǒng)卡里僅用41個(gè)字描述訓(xùn)練數(shù)據(jù)來(lái)源,未披露任何數(shù)據(jù)集名稱與規(guī)模。同期,NVIDIA Cosmos亮出2000萬(wàn)小時(shí)、9000萬(wàn)億token的訓(xùn)練規(guī)模,騰訊HunyuanVideo公開(kāi)了億級(jí)切片的訓(xùn)練流程——前沿模型跑得越快,"用什么訓(xùn)的"反而越說(shuō)不清。

多模態(tài)數(shù)據(jù)集服務(wù)商藝恩在近日發(fā)布的行業(yè)觀察中指出:對(duì)任何一家正在做視頻生成或世界模型的公司來(lái)說(shuō),真正的問(wèn)題不是"下一代模型要多大",而是"下一批訓(xùn)練數(shù)據(jù)從哪兒來(lái)"。

瓶頸一:公開(kāi)數(shù)據(jù)正在見(jiàn)底

Epoch AI在2024年ICML論文中估算,經(jīng)質(zhì)量修正后的公開(kāi)人類文本約300萬(wàn)億token,按當(dāng)前消耗速度將在2026至2032年間用完。視頻領(lǐng)域雖無(wú)等價(jià)研究,但可反向推算:NVIDIA Cosmos的2000萬(wàn)小時(shí)訓(xùn)練語(yǔ)料,大致相當(dāng)于YouTube全球27天的全部上傳量。

公網(wǎng)視頻不是不夠多,是不夠好。質(zhì)量、密度、信號(hào)均不足以支撐下一代模型。Meta V-JEPA 2訓(xùn)練用了"100萬(wàn)小時(shí)以上互聯(lián)網(wǎng)視頻加少量交互數(shù)據(jù)"——前一項(xiàng)是已做到的規(guī)模,后一項(xiàng)才是真正的瓶頸。


2f4e5aeeeb602b167c0fc9ac3c3ecd2b.png


圖 1 · 前沿視頻模型訓(xùn)練數(shù)據(jù)公開(kāi)披露度對(duì)比

瓶頸二:4D與多視角數(shù)據(jù),公網(wǎng)里幾乎沒(méi)有

世界模型陣營(yíng)已將此點(diǎn)明。Meta LeCun在V-JEPA 2論文中指出,"以觀察為主學(xué)習(xí)世界"需結(jié)合互聯(lián)網(wǎng)視頻與交互數(shù)據(jù);斯坦福Fei-Fei Li更直言:"空間智能的數(shù)據(jù)都在我們腦子里,不像語(yǔ)言可直接獲取。"

目前公開(kāi)4D數(shù)據(jù)集規(guī)模有限——上海AI Lab的DNA-Rendering提供6750萬(wàn)幀多視角語(yǔ)料,Google Stereo4D挖出11萬(wàn)個(gè)4D片段——相比千萬(wàn)小時(shí)級(jí)2D視頻,小兩到三個(gè)數(shù)量級(jí),且高度集中在人體、自動(dòng)駕駛、室內(nèi)機(jī)器人三個(gè)窄域。

資本已用腳投票。2026年初,F(xiàn)ei-Fei Li的World Labs獲10億美元融資,LeCun創(chuàng)立的AMI Labs完成10.3億美元種子輪,兩筆合計(jì)20億美元,核心押注均指向——為"理解物理世界"準(zhǔn)備數(shù)據(jù)。


9cb3693feae827330966bfbb6f0f0cf1.png


圖 2 · 視頻訓(xùn)練數(shù)據(jù)的三個(gè)結(jié)構(gòu)性缺口

瓶頸三:電影級(jí)數(shù)據(jù)開(kāi)始被定價(jià)

帶導(dǎo)演意圖的視頻正在成為稀缺資源。阿里Wan 2.2按光線、色調(diào)、構(gòu)圖等幾十維標(biāo)注訓(xùn)練數(shù)據(jù);Google Veo 3紅隊(duì)報(bào)告顯示其輸出"偏電影級(jí),常出現(xiàn)切鏡與戲劇性運(yùn)鏡"——背后必有高占比電影級(jí)語(yǔ)料支撐。

2025年12月,迪士尼以10億美元入股OpenAI,200余個(gè)IP角色被納入Sora生成范圍,雖僅授權(quán)"輸出生成權(quán)"而非"訓(xùn)練權(quán)",但這是好萊塢與視頻AI首次以IP+現(xiàn)金+股權(quán)方式將內(nèi)容擺上談判桌。

國(guó)內(nèi)方面,2025年1月愛(ài)奇藝起訴MiniMax的版權(quán)案仍在審理,索賠僅10萬(wàn)元,但作為中國(guó)首例視頻平臺(tái)訴AI模型案,信號(hào)意義遠(yuǎn)超金額本身。

藝恩判斷:下一步不在公網(wǎng)

藝恩在觀察中給出明確判斷:"再加10倍數(shù)據(jù)"的方向,不在公網(wǎng),而在三條路——

第一條是仿真合成路線,以NVIDIA Cosmos為代表,用物理仿真與機(jī)器人采集數(shù)據(jù)替代真實(shí)視頻;

第二條是精標(biāo)注路線,以Wan 2.2為代表,給現(xiàn)有視頻疊加電影級(jí)結(jié)構(gòu)化標(biāo)注;

第三條是IP采購(gòu)路線,以迪士尼-OpenAI為代表,真金白銀買入版權(quán)清晰的優(yōu)質(zhì)內(nèi)容。

三條路有一個(gè)共同特征:垂類、有授權(quán)鏈、有結(jié)構(gòu)化標(biāo)注。 藝恩認(rèn)為,這已不是數(shù)據(jù)工程問(wèn)題,而是戰(zhàn)略采購(gòu)問(wèn)題——決定它的不是工程團(tuán)隊(duì)的吞吐能力,而是組織能否搭出一條"合規(guī)可溯源+多模態(tài)標(biāo)注+持續(xù)更新"的供給體系。


16131759342915e3aeeacc418f2f99bb.png


圖 3 · 2025-2026 圍繞「視頻訓(xùn)練數(shù)據(jù)」的資本與合規(guī)節(jié)點(diǎn)

藝恩方面表示,其在影視綜藝、社媒、電商領(lǐng)域有超過(guò)10年的垂類數(shù)據(jù)積累,包括2.3B+條垂類視頻資產(chǎn)、1.2M+部影視綜藝授權(quán)片,以及多機(jī)位與4D采集能力和五維稠密標(biāo)注體系。在其看來(lái),行業(yè)面臨的不是"數(shù)據(jù)用完了",而是"數(shù)據(jù)該被重新定義"——下一代視頻模型需要的不是更多公網(wǎng)視頻,而是更結(jié)構(gòu)化、更可溯源、更接近真實(shí)物理世界的垂類語(yǔ)料。