當(dāng)前位置：智能制造網(wǎng)資訊中心企業(yè)動(dòng)態(tài)

科大訊飛首發(fā)工業(yè)級(jí)中文預(yù)訓(xùn)練模型

2022-12-30 09:30:40來(lái)源：科大訊飛關(guān)鍵詞：工業(yè)級(jí)中文預(yù)訓(xùn)練模型中文預(yù)訓(xùn)練模型閱讀量：22850

導(dǎo)讀：預(yù)訓(xùn)練大模型強(qiáng)大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開(kāi)發(fā)、部署再到應(yīng)用有“規(guī)”可循，成為實(shí)現(xiàn)通用AI技術(shù)落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)?；涞氐氖锕狻?

　　近年來(lái)，以超大規(guī)模模型、海量訓(xùn)練數(shù)據(jù)、自監(jiān)督學(xué)習(xí)準(zhǔn)則為特點(diǎn)的無(wú)監(jiān)督預(yù)訓(xùn)練模型備受關(guān)注。具有高通用性的無(wú)監(jiān)督預(yù)訓(xùn)練大模型，結(jié)合知識(shí)和海量數(shù)據(jù)進(jìn)行融合學(xué)習(xí)，通過(guò)提取原始數(shù)據(jù)的深層表征，實(shí)現(xiàn)對(duì)于下游任務(wù)的通用支撐。

　　不用重復(fù)“造輪子”，預(yù)訓(xùn)練大模型強(qiáng)大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開(kāi)發(fā)、部署再到應(yīng)用有“規(guī)”可循，成為實(shí)現(xiàn)通用AI技術(shù)落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)?；涞氐氖锕?。

　　對(duì)AI大規(guī)模落地部署應(yīng)用的期待中，有不少來(lái)自各行各業(yè)的中小企業(yè)，它們也是推進(jìn)AI走向?qū)嵱玫闹袌?jiān)力量。對(duì)于它們而言，無(wú)監(jiān)督預(yù)訓(xùn)練大模型的訓(xùn)練和部署代價(jià)過(guò)于高昂，例如NLP領(lǐng)域預(yù)訓(xùn)練模型ChatGPT參數(shù)量高達(dá)1750億，使得這項(xiàng)熱門(mén)技術(shù)的產(chǎn)業(yè)推廣應(yīng)用困難重重。

　　目前，預(yù)訓(xùn)練模型從比拼參數(shù)和數(shù)據(jù)量級(jí)的“秀肌肉”階段已逐漸進(jìn)入冷靜期，與行業(yè)結(jié)合的輕量化模型應(yīng)運(yùn)而生。在2022年全球1024開(kāi)發(fā)者節(jié)上，科大訊飛正式發(fā)布了工業(yè)級(jí)預(yù)訓(xùn)練模型，其中包含語(yǔ)音及多模態(tài)兩個(gè)輕量級(jí)預(yù)訓(xùn)練模型，覆蓋不同領(lǐng)域場(chǎng)景、支持多個(gè)任務(wù)，在參數(shù)量上遠(yuǎn)遠(yuǎn)小于業(yè)界公開(kāi)模型，但在效果上卻在業(yè)界表現(xiàn)優(yōu)異，為預(yù)訓(xùn)練模型工業(yè)化場(chǎng)景應(yīng)用交出了一份全新的答卷。

　　輕、快、強(qiáng)：直擊預(yù)訓(xùn)練模型行業(yè)應(yīng)用痛點(diǎn)

　　以智能語(yǔ)音技術(shù)在行業(yè)實(shí)際應(yīng)用為例，存在著面臨構(gòu)建多語(yǔ)種、多方言語(yǔ)音系統(tǒng)的數(shù)據(jù)瓶頸，在高噪環(huán)境語(yǔ)音識(shí)別、跨信道聲紋識(shí)別等跨領(lǐng)域場(chǎng)景下的性能損失明顯，以及語(yǔ)音合成缺乏對(duì)于不同聲音屬性維度和用戶(hù)期望音色的靈活定制能力等問(wèn)題；這些技術(shù)問(wèn)題限制了行業(yè)應(yīng)用的深層拓展，而預(yù)訓(xùn)練大模型作為共性關(guān)鍵技術(shù)的突破，恰是行業(yè)所需。

　　在此觀(guān)察基礎(chǔ)上，科大訊飛研究院所研發(fā)的工業(yè)級(jí)中文語(yǔ)音預(yù)訓(xùn)練模型和工業(yè)級(jí)多模態(tài)預(yù)訓(xùn)練模型，聚焦“輕、快、強(qiáng)”三個(gè)方面，直擊行業(yè)應(yīng)用痛點(diǎn)：

　　·輕：語(yǔ)音預(yù)訓(xùn)練模型小于100M，多模態(tài)預(yù)訓(xùn)練模型則小于300M，適配云、端等不同場(chǎng)景和不同設(shè)備的工業(yè)化落地需求；

　　·快：訓(xùn)練數(shù)據(jù)覆蓋近場(chǎng)、遠(yuǎn)場(chǎng)、干凈、噪聲等不同場(chǎng)景，教育、車(chē)載、政法等不同領(lǐng)域，在實(shí)際應(yīng)用階段能夠快速適配落地；

　　·強(qiáng)：語(yǔ)音預(yù)訓(xùn)練模型支持語(yǔ)音識(shí)別、聲紋識(shí)別、情感識(shí)別等不同任務(wù)，多模態(tài)預(yù)訓(xùn)練模型支持多模態(tài)語(yǔ)音識(shí)別、多模態(tài)情感識(shí)別、多模態(tài)聲紋識(shí)別等不同任務(wù)，效果在A(yíng)ISHELL2、Voxceleb、LRS3、DFEW、MISP等權(quán)威開(kāi)源數(shù)據(jù)上均達(dá)到SOTA效果。

　　融合創(chuàng)新：多模態(tài)等技術(shù)為訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型“添彩”

　　以行業(yè)應(yīng)用落地為關(guān)鍵導(dǎo)向，兼顧實(shí)用性與效果，訊飛此次發(fā)布的工業(yè)級(jí)預(yù)訓(xùn)練模型在技術(shù)層面融入了多模態(tài)等方向的最新成果，也是“輕、快、強(qiáng)”的有力保障。

　　以多模態(tài)預(yù)訓(xùn)練模型為例，為了構(gòu)建一套適用于更多下游任務(wù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練框架，訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息，實(shí)現(xiàn)了對(duì)表情、話(huà)術(shù)、身份等表達(dá)的面部關(guān)聯(lián)信息的充分利用，從情感、內(nèi)容、身份屬性等層面強(qiáng)化視頻和語(yǔ)音支路的信息互補(bǔ)和信息增強(qiáng)，從而匹配更多的下游任務(wù)使用場(chǎng)景。

　　例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關(guān)系，通過(guò)一致性約束進(jìn)行身份信息的強(qiáng)化補(bǔ)充，從而在復(fù)雜場(chǎng)景下通過(guò)多模態(tài)間的信息融合實(shí)現(xiàn)更加魯棒的聲紋識(shí)別。

　　同時(shí)，為了充分發(fā)揮訊飛在有監(jiān)督層面的技術(shù)積累和數(shù)據(jù)優(yōu)勢(shì)，訊飛研究院利用了有監(jiān)督模型構(gòu)建了情感碼本和內(nèi)容碼本，并對(duì)無(wú)監(jiān)督數(shù)據(jù)提取的高層次特征表達(dá)匹配產(chǎn)生指導(dǎo)標(biāo)簽，加快模型的訓(xùn)練收斂，最終實(shí)現(xiàn)訓(xùn)練代價(jià)下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績(jī)。

　　在多模態(tài)場(chǎng)景下游任務(wù)遷移中，因?yàn)閷?shí)際使用場(chǎng)景數(shù)據(jù)難以獲取，有標(biāo)注訓(xùn)練數(shù)據(jù)一般只能控制在幾千小時(shí)的范圍內(nèi)，在這種情況下，多模態(tài)預(yù)訓(xùn)練的優(yōu)勢(shì)更加顯著，多模態(tài)語(yǔ)音識(shí)別、多模態(tài)情感識(shí)別、多模態(tài)聲紋識(shí)別等任務(wù)上，訊飛預(yù)訓(xùn)練框架效果平均相對(duì)提升了32%。

　　實(shí)力“說(shuō)話(huà)”：訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型應(yīng)用落地開(kāi)花

　　目前，訊飛工業(yè)級(jí)預(yù)訓(xùn)練模型已在多個(gè)技術(shù)方向?qū)崿F(xiàn)了行業(yè)落地應(yīng)用，并取得了實(shí)打?qū)嵉暮贸煽?jī)。

　　在全場(chǎng)景語(yǔ)音識(shí)別方面，面向重口音、高噪聲、多人對(duì)話(huà)等全場(chǎng)景語(yǔ)音識(shí)別應(yīng)用，基于訊飛多模態(tài)預(yù)訓(xùn)練框架實(shí)現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強(qiáng)和多模態(tài)識(shí)別的功能，在噪聲場(chǎng)景較有監(jiān)督方案效果提升了30%-70%，目前已在車(chē)載領(lǐng)域落地，在多點(diǎn)噪聲干擾、同向人聲干擾等復(fù)雜場(chǎng)景依然能夠提供良好的交互體驗(yàn)。

　　同時(shí)，基于訊飛語(yǔ)音預(yù)訓(xùn)練框架的多語(yǔ)種、方言語(yǔ)音識(shí)別能力，也已經(jīng)落地翻譯機(jī)、錄音筆等，架起了語(yǔ)言溝通無(wú)障礙的橋梁。以阿姆哈拉、希伯來(lái)、普什圖、塔吉克四個(gè)語(yǔ)種為例，和XLS-R預(yù)訓(xùn)練模型相比，訊飛的預(yù)訓(xùn)練模型在預(yù)訓(xùn)練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下，取得了更好的推廣效果。

　　在細(xì)粒度語(yǔ)音情感識(shí)別方面，面向不同類(lèi)別情感定義的情感識(shí)別，基于訊飛多模態(tài)預(yù)訓(xùn)練的情感識(shí)別系統(tǒng)，4種情感類(lèi)別加權(quán)平均召回率相對(duì)提升15%，目前也已在客服、車(chē)載、智慧大屏等場(chǎng)景落地。

　　在高可控語(yǔ)音合成方面，1分鐘個(gè)性化合成任務(wù)實(shí)現(xiàn)合成自然度3.9MOS分，相似度3.7MOS分，自然度接近一般普通人說(shuō)話(huà)的4.0分。實(shí)現(xiàn)合成語(yǔ)音在音色、韻律、口音3個(gè)屬性方向上可連續(xù)調(diào)節(jié)，屬性調(diào)節(jié)方向主觀(guān)感知準(zhǔn)確性達(dá)到66%，合成自然度3.6MOS，在訊飛智慧家庭、訊飛電視語(yǔ)音助手、智能車(chē)載交互等場(chǎng)景提供更多的用戶(hù)選擇。

　　人工智能技術(shù)的演進(jìn)和為行業(yè)智能化帶來(lái)的革新，離不開(kāi)企業(yè)和開(kāi)發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手，基于工業(yè)級(jí)預(yù)訓(xùn)練模型加速AI產(chǎn)業(yè)化應(yīng)用落地的步伐，讓AI真正能“潤(rùn)物細(xì)無(wú)聲”地浸入各行各業(yè)，共享智能化春風(fēng)下的美景。

上一篇：嵐圖汽車(chē)在挪威開(kāi)啟交付，2023年將再入四國(guó)

下一篇：SK Energy與多家公司聯(lián)盟將一站式氫燃料電動(dòng)汽車(chē)充電站商業(yè)化

我要評(píng)論

昵稱(chēng)

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個(gè)字符)

表情

所有評(píng)論僅代表網(wǎng)友意見(jiàn)，與本站立場(chǎng)無(wú)關(guān)。

版權(quán)與免責(zé)聲明：

凡本站注明“來(lái)源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來(lái)源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀(guān)點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí)，必須保留本站注明的作品第一來(lái)源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來(lái)源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來(lái)源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問(wèn)題，請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話(huà)：0571-89719789；郵箱：1271141964@qq.com。

不想錯(cuò)過(guò)行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來(lái)訂閱

信息更豐富

今日焦點(diǎn)/FOCUS 更多

熱門(mén)話(huà)題/TOPICS更多

人形機(jī)器人奏響“狂歡曲”

高難度！深圳眾擎實(shí)現(xiàn)全球首例人形機(jī)器人前空翻

宇樹(shù)科技王興興：預(yù)計(jì)年底H1機(jī)器人跑速達(dá)10米/秒超博爾特

“智能經(jīng)濟(jì)”駛?cè)氚l(fā)展“快車(chē)道”

AI智能體Manus橫空出世！中國(guó)AI實(shí)現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉(zhuǎn)智改，安全先行！“以模制?！弊o(hù)航企業(yè)數(shù)智升級(jí)

精彩直播/VIDEO更多

回放

數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟(jì)分論壇

: 數(shù)字孿生賦能城市全域數(shù)字化轉(zhuǎn)型分論壇

推薦產(chǎn)品/PRODUCT 更多

車(chē)間工業(yè)省電空調(diào)柜式
車(chē)間工業(yè)省電空調(diào),工業(yè)節(jié)能空調(diào),車(chē)間降溫空調(diào),柜式工業(yè)省電空調(diào),蒸發(fā)冷工業(yè)省電空調(diào)
品牌
爽風(fēng)
灌裝流水線(xiàn)除塵風(fēng)刀
干燥除水風(fēng)刀,鑄鋁除塵風(fēng)刀,不銹鋼除水風(fēng)刀,不銹鋼除塵風(fēng)刀,高負(fù)壓高壓風(fēng)刀
品牌
其他品牌
CJK-3Z 觸頭強(qiáng)密封防爆磁性接近開(kāi)關(guān)
CJK-3Z,強(qiáng)密封防爆磁性接近開(kāi)關(guān),磁性開(kāi)關(guān)產(chǎn)品特點(diǎn),磁性接近開(kāi)關(guān)應(yīng)用場(chǎng)景,磁感應(yīng)開(kāi)關(guān)參數(shù)
品牌
杭榮
IC卡彎曲扭矩試驗(yàn)機(jī)
IC卡彎曲檢測(cè)儀,IC扭矩檢測(cè)儀,IC卡彎曲扭矩試驗(yàn)機(jī),IC卡彎扭疲勞試驗(yàn)機(jī),IC卡動(dòng)態(tài)彎扭試驗(yàn)機(jī)
品牌
傾技
材料拉力強(qiáng)度測(cè)試機(jī)
材料拉力強(qiáng)度測(cè)試機(jī),材料拉力測(cè)試機(jī),材料力學(xué)拉伸試驗(yàn)機(jī),材料拉伸實(shí)驗(yàn)設(shè)備,拉伸材料試驗(yàn)機(jī)
品牌
傾技
大型柔性連續(xù)式噴霧流化床制粒生產(chǎn)線(xiàn)
大型柔性連續(xù)式噴霧流化床制粒設(shè)備,制粒生產(chǎn)線(xiàn),柔性造粒,大型柔性連續(xù)式噴霧流化床,大型連續(xù)流化床
品牌
LHC

国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

科大訊飛首發(fā)工業(yè)級(jí)中文預(yù)訓(xùn)練模型

熱門(mén)評(píng)論

全部評(píng)論