專訪萬興科技董事長吳太兵：文本大模型理解人類，文生視頻大模型理解世界

來源：證券之星時(shí)間：2024-05-15 05:28 編輯：宋元明清閱讀量：17996

在近期熱播綜藝《歌手2024》中，網(wǎng)上發(fā)布的片頭中“海平面的潮起潮落”等多個(gè)場景便是由文生大模型“天幕”生成。

2月，Sora大模型橫空出世，將大模型領(lǐng)域最熱話題又重新拉回到視頻模型上，國內(nèi)諸如萬興科技、生數(shù)科技等公司均發(fā)布了各自具備文生視頻能力的大模型，一場大模型的競速正在徐徐拉開。

有別于文本大模型的“百模大戰(zhàn)”，視頻大模型由于其本身算力成本極高，算法難度復(fù)雜，所需數(shù)據(jù)規(guī)模數(shù)倍于圖文大模型，因而國內(nèi)目前宣布具備文生視頻能力的大模型廠商并不多，至今難以大規(guī)模落地。

另一方面，視頻流量占消費(fèi)互聯(lián)網(wǎng)總流量的82%，創(chuàng)作者寄希望于文生視頻功能出現(xiàn)，視頻大模型發(fā)展?jié)摿薮蟆?/p>

4月底，萬興“天幕”音視頻多媒體大模型宣布正式公測，具備近百項(xiàng)音視頻原子能力，一鍵生成時(shí)長支持60秒+。

近期，在“2024長江獨(dú)角獸峰會(huì)”上，21世紀(jì)經(jīng)濟(jì)報(bào)道記者專訪了萬興科技董事長吳太兵。

盡管大模型已在萬興科技旗下創(chuàng)意軟件中規(guī)模化應(yīng)用，但“天幕”生成效果離吳太兵預(yù)想中仍有差距。

他坦言，萬興“天幕”不追求一夜之間的突破，而是采取應(yīng)用驅(qū)動(dòng)的策略，針對實(shí)際用戶場景進(jìn)行能力強(qiáng)化和數(shù)據(jù)準(zhǔn)備。在AIGC時(shí)代，萬興更多像電力系統(tǒng)中的終端設(shè)備制造商角色，專注于矩陣化的數(shù)字創(chuàng)意軟件終端應(yīng)用開發(fā)，而非單純的大模型提供商。

萬興科技董事長吳太兵受訪者供圖

視頻大模型理解世界

在互聯(lián)網(wǎng)世界中，視頻占總流量超過八成。巨大的流量市場也催生了創(chuàng)作需求，數(shù)據(jù)顯示，全球視頻創(chuàng)作者規(guī)模已達(dá)到3.05億，視頻類內(nèi)容觸達(dá)到用戶群體則高達(dá)43億。

為創(chuàng)作一段真實(shí)世界的視頻，動(dòng)效師和剪輯師可能需要耗費(fèi)數(shù)天的時(shí)間，只為復(fù)雜細(xì)節(jié)和模擬物理世界建模。

而隨著AI技術(shù)的爆發(fā)性增長，視頻大模型可以通過AI自動(dòng)化生成高質(zhì)量的視頻內(nèi)容，大大縮短制作周期和成本。

不僅于此，吳太兵表示，中長期來看，視頻大模型不僅能夠模擬真實(shí)物理世界，還應(yīng)擁有豐富想象力，成為對真實(shí)世界的映射。例如，當(dāng)前游戲場景都是預(yù)先生成的，想象空間和體驗(yàn)感有限，未來視頻大模型若能助力相關(guān)畫面實(shí)時(shí)動(dòng)態(tài)生成，將顯著提高玩家的游戲體驗(yàn)。

事實(shí)上，在供給側(cè)，能夠提供高質(zhì)量支持的音視頻大模型仍相對不足，這是因?yàn)橐曨l大模型落地并不簡單。

吳太兵向記者表示，如果說文本大模型只需要理解人類，那么視頻大模型需要處理和還原視覺與聽覺等信息，理解并構(gòu)建一個(gè)接近真實(shí)的世界，這一任務(wù)的難度遠(yuǎn)超文本處理。

并且，大模型面臨數(shù)據(jù)集缺失、視頻內(nèi)容結(jié)構(gòu)及層級復(fù)雜、算力成本高等嚴(yán)峻挑戰(zhàn)。

“粗略估算，訓(xùn)練一天的視頻數(shù)據(jù)量相當(dāng)于互聯(lián)網(wǎng)一個(gè)月的文本大模型的數(shù)據(jù)量，‘天幕’按照特定場景組織數(shù)據(jù)訓(xùn)練，一定程度緩解數(shù)據(jù)‘焦慮’?！眳翘Q。

在吳太兵看來，各家視頻大模型在技術(shù)方向上并沒有本質(zhì)區(qū)別，關(guān)鍵是看企業(yè)愿意投入多少資本和人力，購買多少版權(quán)數(shù)據(jù)。

百模大戰(zhàn)商業(yè)模式推演

在通往AGI的道路上，除了需要多模態(tài)大模型，業(yè)界亟需探索更好的商業(yè)模式，2024年這一步伐明顯加快。

當(dāng)前，百?！凹?zhàn)正酣”，大廠和創(chuàng)業(yè)公司在大模型領(lǐng)域廝殺。其中既有做通用大模型如百度的文心、阿里的通義、騰訊的混元，也有面向行業(yè)、場景的垂直大模型如萬興的“天幕”、云天勵(lì)飛的天書在金融、教育、工業(yè)等多個(gè)領(lǐng)域“智能涌現(xiàn)”。

據(jù)Gartner研究預(yù)測，到2030年，90%的數(shù)字內(nèi)容都將是AI生成，這場AI競速誰也不想落下牌桌。

“AIGC對創(chuàng)業(yè)公司來說喜憂參半，喜的是有嶄新的賽道出現(xiàn)，憂的是這是一個(gè)需要大量資本投入的賽道?！眳翘J(rèn)為，巨頭更多集中在通用大模型，模式和定位相對穩(wěn)定；相比而言，萬興具備快速調(diào)整策略的靈活性，但又比創(chuàng)業(yè)公司更有積淀。

吳太兵認(rèn)為，大模型B端和C端并不是完全割裂，這跟營銷渠道建設(shè)的優(yōu)先級有關(guān)，好比家用電腦和辦公室電腦實(shí)際上并沒多大區(qū)別，更多是大模型所服務(wù)的用戶和用途有差異。萬興主要用戶是C端，同時(shí)也有很多企業(yè)付費(fèi)，更愿意用個(gè)人用途和商業(yè)用途區(qū)分。

對于萬興的定位，吳太兵有自己的一番思考。他表示，如果將AIGC類比為電力系統(tǒng)，萬興科技更多像電力系統(tǒng)中的終端設(shè)備制造商的角色，專注于矩陣化的數(shù)字創(chuàng)意軟件終端應(yīng)用開發(fā)，而非單純的大模型提供商。萬興希望做AIGC時(shí)代的“美的”，選擇創(chuàng)作者的細(xì)分市場，開發(fā)矩陣化的數(shù)字創(chuàng)意軟件應(yīng)用。

具體到文生視頻大模型，由于運(yùn)算和推理的成本過高，至今難以大規(guī)模落地，視頻模型的技術(shù)迭代需要燒錢，落地應(yīng)用后，用戶的使用也會(huì)帶來巨額的計(jì)算成本。

吳太兵表示，大模型的商業(yè)模式還沒有完全打通，付費(fèi)意愿也是需要考量的問題。Sora大模型尚未公測，業(yè)界也是猜測其推理成本很高，萬興“天幕”當(dāng)前處于分批公測狀態(tài)，一次性放開還不太現(xiàn)實(shí)，成本太高。

對于百模大戰(zhàn)的終局，吳太兵判斷，文本大模型集中度高，進(jìn)入門檻較低，同質(zhì)性較強(qiáng)，隨著參與的機(jī)構(gòu)數(shù)量增多，時(shí)間逐漸延長，在算力和數(shù)據(jù)等成本壓力下最后一定會(huì)角逐出幾家寡頭。但對于音視頻大模型而言，由于細(xì)分領(lǐng)域更多，諸如動(dòng)漫、寫實(shí)等風(fēng)格，每個(gè)方向數(shù)據(jù)集都會(huì)有較大的差異，多元化的可能更多一些。

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場無關(guān)。僅供讀者參考，并請自行核實(shí)相關(guān)內(nèi)容。

天天日天天干天天搞_亚洲性色AV无码久久精品色欲_亚洲精品免费在线观看_午夜视频在线免费观看

專訪萬興科技董事長吳太兵：文本大模型理解人類，文生視頻大模型理解世界

視頻大模型理解世界

百模大戰(zhàn)商業(yè)模式推演

圖文 PICTURE

頭條

排行

熱圖