近年來(lái),以超大規(guī)模模型、海量訓(xùn)練數(shù)據(jù)、自監(jiān)督學(xué)習(xí)準(zhǔn)則為特點(diǎn)的無(wú)監(jiān)督預(yù)訓(xùn)練模型備受關(guān)注。具有高通用性的無(wú)監(jiān)督預(yù)訓(xùn)練大模型,結(jié)合知識(shí)和海量數(shù)據(jù)進(jìn)行融合學(xué)習(xí),通過(guò)提取原始數(shù)據(jù)的深層表征,實(shí)現(xiàn)對(duì)于下游任務(wù)的通用支撐。
不用重復(fù)“造輪子”,預(yù)訓(xùn)練大模型強(qiáng)大的泛化能力和優(yōu)秀的模型效果,讓AI模型從開(kāi)發(fā)、部署再到應(yīng)用有“規(guī)”可循,成為實(shí)現(xiàn)通用AI技術(shù)落地的有效途徑之一,也讓人看到了AI工業(yè)化、規(guī)?;涞氐氖锕?。
對(duì)AI大規(guī)模落地部署應(yīng)用的期待中,有不少來(lái)自各行各業(yè)的中小企業(yè),它們也是推進(jìn)AI走向?qū)嵱玫闹袌?jiān)力量。對(duì)于它們而言,無(wú)監(jiān)督預(yù)訓(xùn)練大模型的訓(xùn)練和部署代價(jià)過(guò)于高昂,例如NLP領(lǐng)域預(yù)訓(xùn)練模型ChatGPT參數(shù)量高達(dá)1750億,使得這項(xiàng)熱門(mén)技術(shù)的產(chǎn)業(yè)推廣應(yīng)用困難重重。
目前,預(yù)訓(xùn)練模型從比拼參數(shù)和數(shù)據(jù)量級(jí)的“秀肌肉”階段已逐漸進(jìn)入冷靜期,與行業(yè)結(jié)合的輕量化模型應(yīng)運(yùn)而生。在2022年全球1024開(kāi)發(fā)者節(jié)上,科大訊飛正式發(fā)布了工業(yè)級(jí)預(yù)訓(xùn)練模型,其中包含語(yǔ)音及多模態(tài)兩個(gè)輕量級(jí)預(yù)訓(xùn)練模型,覆蓋不同領(lǐng)域場(chǎng)景、支持多個(gè)任務(wù),在參數(shù)量上遠(yuǎn)遠(yuǎn)小于業(yè)界公開(kāi)模型,但在效果上卻在業(yè)界表現(xiàn)優(yōu)異,為預(yù)訓(xùn)練模型工業(yè)化場(chǎng)景應(yīng)用交出了一份全新的答卷。
輕、快、強(qiáng):直擊預(yù)訓(xùn)練模型行業(yè)應(yīng)用痛點(diǎn)
以智能語(yǔ)音技術(shù)在行業(yè)實(shí)際應(yīng)用為例,存在著面臨構(gòu)建多語(yǔ)種、多方言語(yǔ)音系統(tǒng)的數(shù)據(jù)瓶頸,在高噪環(huán)境語(yǔ)音識(shí)別、跨信道聲紋識(shí)別等跨領(lǐng)域場(chǎng)景下的性能損失明顯,以及語(yǔ)音合成缺乏對(duì)于不同聲音屬性維度和用戶(hù)期望音色的靈活定制能力等問(wèn)題;這些技術(shù)問(wèn)題限制了行業(yè)應(yīng)用的深層拓展,而預(yù)訓(xùn)練大模型作為共性關(guān)鍵技術(shù)的突破,恰是行業(yè)所需。
在此觀(guān)察基礎(chǔ)上,科大訊飛研究院所研發(fā)的工業(yè)級(jí)中文語(yǔ)音預(yù)訓(xùn)練模型和工業(yè)級(jí)多模態(tài)預(yù)訓(xùn)練模型,聚焦“輕、快、強(qiáng)”三個(gè)方面,直擊行業(yè)應(yīng)用痛點(diǎn):
·輕:語(yǔ)音預(yù)訓(xùn)練模型小于100M,多模態(tài)預(yù)訓(xùn)練模型則小于300M,適配云、端等不同場(chǎng)景和不同設(shè)備的工業(yè)化落地需求;
·快:訓(xùn)練數(shù)據(jù)覆蓋近場(chǎng)、遠(yuǎn)場(chǎng)、干凈、噪聲等不同場(chǎng)景,教育、車(chē)載、政法等不同領(lǐng)域,在實(shí)際應(yīng)用階段能夠快速適配落地;
·強(qiáng):語(yǔ)音預(yù)訓(xùn)練模型支持語(yǔ)音識(shí)別、聲紋識(shí)別、情感識(shí)別等不同任務(wù),多模態(tài)預(yù)訓(xùn)練模型支持多模態(tài)語(yǔ)音識(shí)別、多模態(tài)情感識(shí)別、多模態(tài)聲紋識(shí)別等不同任務(wù),效果在A(yíng)ISHELL2、Voxceleb、LRS3、DFEW、MISP等權(quán)威開(kāi)源數(shù)據(jù)上均達(dá)到SOTA效果。
融合創(chuàng)新:多模態(tài)等技術(shù)為訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型“添彩”
以行業(yè)應(yīng)用落地為關(guān)鍵導(dǎo)向,兼顧實(shí)用性與效果,訊飛此次發(fā)布的工業(yè)級(jí)預(yù)訓(xùn)練模型在技術(shù)層面融入了多模態(tài)等方向的最新成果,也是“輕、快、強(qiáng)”的有力保障。
以多模態(tài)預(yù)訓(xùn)練模型為例,為了構(gòu)建一套適用于更多下游任務(wù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練框架,訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息,實(shí)現(xiàn)了對(duì)表情、話(huà)術(shù)、身份等表達(dá)的面部關(guān)聯(lián)信息的充分利用,從情感、內(nèi)容、身份屬性等層面強(qiáng)化視頻和語(yǔ)音支路的信息互補(bǔ)和信息增強(qiáng),從而匹配更多的下游任務(wù)使用場(chǎng)景。
例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關(guān)系,通過(guò)一致性約束進(jìn)行身份信息的強(qiáng)化補(bǔ)充,從而在復(fù)雜場(chǎng)景下通過(guò)多模態(tài)間的信息融合實(shí)現(xiàn)更加魯棒的聲紋識(shí)別。
同時(shí),為了充分發(fā)揮訊飛在有監(jiān)督層面的技術(shù)積累和數(shù)據(jù)優(yōu)勢(shì),訊飛研究院利用了有監(jiān)督模型構(gòu)建了情感碼本和內(nèi)容碼本,并對(duì)無(wú)監(jiān)督數(shù)據(jù)提取的高層次特征表達(dá)匹配產(chǎn)生指導(dǎo)標(biāo)簽,加快模型的訓(xùn)練收斂,最終實(shí)現(xiàn)訓(xùn)練代價(jià)下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績(jī)。
在多模態(tài)場(chǎng)景下游任務(wù)遷移中,因?yàn)閷?shí)際使用場(chǎng)景數(shù)據(jù)難以獲取,有標(biāo)注訓(xùn)練數(shù)據(jù)一般只能控制在幾千小時(shí)的范圍內(nèi),在這種情況下,多模態(tài)預(yù)訓(xùn)練的優(yōu)勢(shì)更加顯著,多模態(tài)語(yǔ)音識(shí)別、多模態(tài)情感識(shí)別、多模態(tài)聲紋識(shí)別等任務(wù)上,訊飛預(yù)訓(xùn)練框架效果平均相對(duì)提升了32%。
實(shí)力“說(shuō)話(huà)”:訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型應(yīng)用落地開(kāi)花
目前,訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型已在多個(gè)技術(shù)方向?qū)崿F(xiàn)了行業(yè)落地應(yīng)用,并取得了實(shí)打?qū)嵉暮贸煽?jī)。
在全場(chǎng)景語(yǔ)音識(shí)別方面,面向重口音、高噪聲、多人對(duì)話(huà)等全場(chǎng)景語(yǔ)音識(shí)別應(yīng)用,基于訊飛多模態(tài)預(yù)訓(xùn)練框架實(shí)現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強(qiáng)和多模態(tài)識(shí)別的功能,在噪聲場(chǎng)景較有監(jiān)督方案效果提升了30%-70%,目前已在車(chē)載領(lǐng)域落地,在多點(diǎn)噪聲干擾、同向人聲干擾等復(fù)雜場(chǎng)景依然能夠提供良好的交互體驗(yàn)。
同時(shí),基于訊飛語(yǔ)音預(yù)訓(xùn)練框架的多語(yǔ)種、方言語(yǔ)音識(shí)別能力,也已經(jīng)落地翻譯機(jī)、錄音筆等,架起了語(yǔ)言溝通無(wú)障礙的橋梁。以阿姆哈拉、希伯來(lái)、普什圖、塔吉克四個(gè)語(yǔ)種為例,和XLS-R預(yù)訓(xùn)練模型相比,訊飛的預(yù)訓(xùn)練模型在預(yù)訓(xùn)練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下,取得了更好的推廣效果。
在細(xì)粒度語(yǔ)音情感識(shí)別方面,面向不同類(lèi)別情感定義的情感識(shí)別,基于訊飛多模態(tài)預(yù)訓(xùn)練的情感識(shí)別系統(tǒng),4種情感類(lèi)別加權(quán)平均召回率相對(duì)提升15%,目前也已在客服、車(chē)載、智慧大屏等場(chǎng)景落地。
在高可控語(yǔ)音合成方面,1分鐘個(gè)性化合成任務(wù)實(shí)現(xiàn)合成自然度3.9MOS分,相似度3.7MOS分,自然度接近一般普通人說(shuō)話(huà)的4.0分。實(shí)現(xiàn)合成語(yǔ)音在音色、韻律、口音3個(gè)屬性方向上可連續(xù)調(diào)節(jié),屬性調(diào)節(jié)方向主觀(guān)感知準(zhǔn)確性達(dá)到66%,合成自然度3.6MOS,在訊飛智慧家庭、訊飛電視語(yǔ)音助手、智能車(chē)載交互等場(chǎng)景提供更多的用戶(hù)選擇。
人工智能技術(shù)的演進(jìn)和為行業(yè)智能化帶來(lái)的革新,離不開(kāi)企業(yè)和開(kāi)發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手,基于工業(yè)級(jí)預(yù)訓(xùn)練模型加速AI產(chǎn)業(yè)化應(yīng)用落地的步伐,讓AI真正能“潤(rùn)物細(xì)無(wú)聲”地浸入各行各業(yè),共享智能化春風(fēng)下的美景。