在近期熱播綜藝《歌手2024》中,網(wǎng)上發(fā)布的片頭中“海平面的潮起潮落”等多個(gè)場景便是由文生大模型“天幕”生成。
2月,Sora大模型橫空出世,將大模型領(lǐng)域最熱話題又重新拉回到視頻模型上,國內(nèi)諸如萬興科技、生數(shù)科技等公司均發(fā)布了各自具備文生視頻能力的大模型,一場大模型的競速正在徐徐拉開。
有別于文本大模型的“百模大戰(zhàn)”,視頻大模型由于其本身算力成本極高,算法難度復(fù)雜,所需數(shù)據(jù)規(guī)模數(shù)倍于圖文大模型,因而國內(nèi)目前宣布具備文生視頻能力的大模型廠商并不多,至今難以大規(guī)模落地。
另一方面,視頻流量占消費(fèi)互聯(lián)網(wǎng)總流量的82%,創(chuàng)作者寄希望于文生視頻功能出現(xiàn),視頻大模型發(fā)展?jié)摿薮蟆?/p>
4月底,萬興“天幕”音視頻多媒體大模型宣布正式公測,具備近百項(xiàng)音視頻原子能力,一鍵生成時(shí)長支持60秒+。
近期,在“2024長江獨(dú)角獸峰會(huì)”上,21世紀(jì)經(jīng)濟(jì)報(bào)道記者專訪了萬興科技董事長吳太兵。
盡管大模型已在萬興科技旗下創(chuàng)意軟件中規(guī)模化應(yīng)用,但“天幕”生成效果離吳太兵預(yù)想中仍有差距。
他坦言,萬興“天幕”不追求一夜之間的突破,而是采取應(yīng)用驅(qū)動(dòng)的策略,針對實(shí)際用戶場景進(jìn)行能力強(qiáng)化和數(shù)據(jù)準(zhǔn)備。在AIGC時(shí)代,萬興更多像電力系統(tǒng)中的終端設(shè)備制造商角色,專注于矩陣化的數(shù)字創(chuàng)意軟件終端應(yīng)用開發(fā),而非單純的大模型提供商。
萬興科技董事長吳太兵 受訪者供圖
在互聯(lián)網(wǎng)世界中,視頻占總流量超過八成。巨大的流量市場也催生了創(chuàng)作需求,數(shù)據(jù)顯示,全球視頻創(chuàng)作者規(guī)模已達(dá)到3.05億,視頻類內(nèi)容觸達(dá)到用戶群體則高達(dá)43億。
為創(chuàng)作一段真實(shí)世界的視頻,動(dòng)效師和剪輯師可能需要耗費(fèi)數(shù)天的時(shí)間,只為復(fù)雜細(xì)節(jié)和模擬物理世界建模。
而隨著AI技術(shù)的爆發(fā)性增長,視頻大模型可以通過AI自動(dòng)化生成高質(zhì)量的視頻內(nèi)容,大大縮短制作周期和成本。
不僅于此,吳太兵表示,中長期來看,視頻大模型不僅能夠模擬真實(shí)物理世界,還應(yīng)擁有豐富想象力,成為對真實(shí)世界的映射。例如,當(dāng)前游戲場景都是預(yù)先生成的,想象空間和體驗(yàn)感有限,未來視頻大模型若能助力相關(guān)畫面實(shí)時(shí)動(dòng)態(tài)生成,將顯著提高玩家的游戲體驗(yàn)。
事實(shí)上,在供給側(cè),能夠提供高質(zhì)量支持的音視頻大模型仍相對不足,這是因?yàn)橐曨l大模型落地并不簡單。
吳太兵向記者表示,如果說文本大模型只需要理解人類,那么視頻大模型需要處理和還原視覺與聽覺等信息,理解并構(gòu)建一個(gè)接近真實(shí)的世界,這一任務(wù)的難度遠(yuǎn)超文本處理。
并且,大模型面臨數(shù)據(jù)集缺失、視頻內(nèi)容結(jié)構(gòu)及層級復(fù)雜、算力成本高等嚴(yán)峻挑戰(zhàn)。
“粗略估算,訓(xùn)練一天的視頻數(shù)據(jù)量相當(dāng)于互聯(lián)網(wǎng)一個(gè)月的文本大模型的數(shù)據(jù)量,‘天幕’按照特定場景組織數(shù)據(jù)訓(xùn)練,一定程度緩解數(shù)據(jù)‘焦慮’?!眳翘Q。
在吳太兵看來,各家視頻大模型在技術(shù)方向上并沒有本質(zhì)區(qū)別,關(guān)鍵是看企業(yè)愿意投入多少資本和人力,購買多少版權(quán)數(shù)據(jù)。
在通往AGI的道路上,除了需要多模態(tài)大模型,業(yè)界亟需探索更好的商業(yè)模式,2024年這一步伐明顯加快。
當(dāng)前,百?!凹?zhàn)正酣”,大廠和創(chuàng)業(yè)公司在大模型領(lǐng)域廝殺。其中既有做通用大模型如百度的文心、阿里的通義、騰訊的混元,也有面向行業(yè)、場景的垂直大模型如萬興的“天幕”、云天勵(lì)飛的天書在金融、教育、工業(yè)等多個(gè)領(lǐng)域“智能涌現(xiàn)”。
據(jù)Gartner研究預(yù)測,到2030年,90%的數(shù)字內(nèi)容都將是AI生成,這場AI競速誰也不想落下牌桌。
“AIGC對創(chuàng)業(yè)公司來說喜憂參半,喜的是有嶄新的賽道出現(xiàn),憂的是這是一個(gè)需要大量資本投入的賽道?!眳翘J(rèn)為,巨頭更多集中在通用大模型,模式和定位相對穩(wěn)定;相比而言,萬興具備快速調(diào)整策略的靈活性,但又比創(chuàng)業(yè)公司更有積淀。
吳太兵認(rèn)為,大模型B端和C端并不是完全割裂,這跟營銷渠道建設(shè)的優(yōu)先級有關(guān),好比家用電腦和辦公室電腦實(shí)際上并沒多大區(qū)別,更多是大模型所服務(wù)的用戶和用途有差異。萬興主要用戶是C端,同時(shí)也有很多企業(yè)付費(fèi),更愿意用個(gè)人用途和商業(yè)用途區(qū)分。
對于萬興的定位,吳太兵有自己的一番思考。他表示,如果將AIGC類比為電力系統(tǒng),萬興科技更多像電力系統(tǒng)中的終端設(shè)備制造商的角色,專注于矩陣化的數(shù)字創(chuàng)意軟件終端應(yīng)用開發(fā),而非單純的大模型提供商。萬興希望做AIGC時(shí)代的“美的”,選擇創(chuàng)作者的細(xì)分市場,開發(fā)矩陣化的數(shù)字創(chuàng)意軟件應(yīng)用。
具體到文生視頻大模型,由于運(yùn)算和推理的成本過高,至今難以大規(guī)模落地,視頻模型的技術(shù)迭代需要燒錢,落地應(yīng)用后,用戶的使用也會(huì)帶來巨額的計(jì)算成本。
吳太兵表示,大模型的商業(yè)模式還沒有完全打通,付費(fèi)意愿也是需要考量的問題。Sora大模型尚未公測,業(yè)界也是猜測其推理成本很高,萬興“天幕”當(dāng)前處于分批公測狀態(tài),一次性放開還不太現(xiàn)實(shí),成本太高。
對于百模大戰(zhàn)的終局,吳太兵判斷,文本大模型集中度高,進(jìn)入門檻較低,同質(zhì)性較強(qiáng),隨著參與的機(jī)構(gòu)數(shù)量增多,時(shí)間逐漸延長,在算力和數(shù)據(jù)等成本壓力下最后一定會(huì)角逐出幾家寡頭。但對于音視頻大模型而言,由于細(xì)分領(lǐng)域更多,諸如動(dòng)漫、寫實(shí)等風(fēng)格,每個(gè)方向數(shù)據(jù)集都會(huì)有較大的差異,多元化的可能更多一些。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。