近日,第48屆IEEE聲學(xué)、語音與信號處理國際會議 公布了論文入選名單,奇富科技論文《基于多粒度Transformer的多模態(tài)情緒識別》(Multilevel Transformer for Multimodal Emotion Recognition)被大會接收。
ICASSP由IEEE主辦,是全世界最大的、也是最全面的信號處理及其應(yīng)用方面的頂級學(xué)術(shù)會議,具有權(quán)威、廣泛的學(xué)界及工業(yè)界影響力,備受AI領(lǐng)域研究學(xué)者關(guān)注。此次入選,顯示奇富科技在音頻領(lǐng)域的技術(shù)實(shí)力達(dá)到國際領(lǐng)先水平。
憑借在音頻技術(shù)領(lǐng)域的積累創(chuàng)新,奇富科技也不斷將前沿領(lǐng)域研究成果應(yīng)用于實(shí)踐。為用戶提供優(yōu)質(zhì)的服務(wù)一直是奇富科技運(yùn)營的重中之重。相比于以往只通過文本識別用戶的情緒,從用戶音頻中解讀的情感信息更加直接和豐富,更有利于指導(dǎo)戶交互策略、提升客戶體驗(yàn)。而偏主觀的情緒判斷導(dǎo)致標(biāo)注任務(wù)格外困難,數(shù)據(jù)標(biāo)注數(shù)量較少、標(biāo)注結(jié)果存在的不一致性都是情緒識別所面臨的挑戰(zhàn)??紤]到預(yù)訓(xùn)練模型的成功和語言表達(dá)細(xì)粒度的特征,奇富科技引入了一種新的multi-granularity的模型,可以有效融合多模態(tài)細(xì)粒度的表征和預(yù)訓(xùn)練的全局表征,來解決這極具價(jià)值而又充滿挑戰(zhàn)的任務(wù)。
該項(xiàng)技術(shù)已幫助奇富科技大幅度提升用戶服務(wù)體驗(yàn),有效應(yīng)用在質(zhì)檢服務(wù)中,降低客戶投訴率4%。而對于基于語音通話,通過捕捉的情緒信號,應(yīng)用在用戶經(jīng)營、坐席指導(dǎo)中的探索和嘗試,也一直在進(jìn)行,用戶的情緒表征可以幫助奇富科技更全面的理解用戶,服務(wù)用戶。
“隨著ChatGPT在公司內(nèi)的實(shí)驗(yàn)和落地,我們已經(jīng)極大提升了對于用戶在文本上的理解能力,更好的識別和挖掘音頻中的信息表征已經(jīng)從幕后走向臺前,成為進(jìn)一步提升用戶理解能力的關(guān)鍵手段。公司在音頻技術(shù)上,一直堅(jiān)持投入、堅(jiān)持自研,這也是我們不斷進(jìn)步的基石,未來我們會有更多的技術(shù)成果分享給業(yè)界。”奇富科技首席算法科學(xué)家費(fèi)浩峻表示。
據(jù)介紹,奇富科技在評價(jià)情緒過程中引入了三個主要創(chuàng)新點(diǎn):
第一,對于多模態(tài)細(xì)粒度的表征,提出multilevel transformer模型,探索不同的方式來結(jié)合音素表征和單詞表征。特別地,該方法并不需要借助外部信息來進(jìn)行語音和文字的對齊,而是借鑒transformer TTS的框架,把文本和語音信息,有效地結(jié)合在一起。
第二,為了充分發(fā)揮預(yù)訓(xùn)練模型的優(yōu)勢,奇富科技提出multi-granularity模型,直接把multilevel transformer模型和Bert有效結(jié)合,使細(xì)粒度信息和全局信息得到了充分的融合,模型效果有了更進(jìn)一步的提升。
第三,奇富科技的multilevel transformer模型在公開數(shù)據(jù)集上取得了SOTA效果,multi-granularity模型在此基礎(chǔ)上,又有了更大幅度的提升。
在實(shí)際業(yè)務(wù)上,奇富科技利用論文中的方法,通過自主研發(fā)的實(shí)時感知情緒模型,對潛在投訴進(jìn)行及時預(yù)警和安撫,結(jié)果表明投訴率低于對照組4%。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。