準(zhǔn)確性大幅提升語音識(shí)別或成下一個(gè)風(fēng)口

2017-10-14 09:27:14來源：騰訊創(chuàng)投編輯：一不做關(guān)鍵詞：語音識(shí)別語音交互人機(jī)交互閱讀量：27428

導(dǎo)讀：近幾年來，我們?nèi)〉昧司薮蟮募夹g(shù)進(jìn)步。語音識(shí)別引擎的準(zhǔn)確性已經(jīng)提高了很多，現(xiàn)在達(dá)到了95%的準(zhǔn)確度，略高于人類的成功識(shí)別率率。

　　【中國(guó)智能制造網(wǎng) 市場(chǎng)分析】語音識(shí)別引擎的準(zhǔn)確性已經(jīng)提高了很多，現(xiàn)在達(dá)到了95%的準(zhǔn)確度，略高于人類的成功識(shí)別率率。隨著這項(xiàng)技術(shù)的改進(jìn)，語音優(yōu)先的基礎(chǔ)設(shè)施變得越來越重要，導(dǎo)致亞馬遜，蘋果，谷歌，微軟和百度都迅速進(jìn)行布局，發(fā)布軟件構(gòu)建模塊和平臺(tái)。

　　近幾年來，我們?nèi)〉昧司薮蟮募夹g(shù)進(jìn)步。語音識(shí)別引擎的準(zhǔn)確性已經(jīng)提高了很多，現(xiàn)在達(dá)到了95%的準(zhǔn)確度，略高于人類的成功識(shí)別率率。隨著這項(xiàng)技術(shù)的改進(jìn)，語音優(yōu)先的基礎(chǔ)設(shè)施變得越來越重要，導(dǎo)致亞馬遜，蘋果，谷歌，微軟和百度都迅速進(jìn)行布局，發(fā)布軟件構(gòu)建模塊和平臺(tái)。語音似乎要興起了。

　　在本文中，作者總結(jié)了：我們目前掌握語音識(shí)別技術(shù)的現(xiàn)狀，以及基礎(chǔ)設(shè)施如何圍繞語音發(fā)展起來，以了解過去幾十年來這一領(lǐng)域發(fā)生了什么。

　　語音是自然的溝通方式，但語音并不是機(jī)器交互的主要界面。自從愛迪生發(fā)明留聲機(jī)之后，人們一直在和機(jī)器交談，但是主要為了與他人進(jìn)行通信，而不是與機(jī)器本身進(jìn)行通信。到了20世紀(jì)80年代，語音識(shí)別技術(shù)將口語轉(zhuǎn)化為文本的識(shí)別率開始足夠準(zhǔn)確。2001年，計(jì)算機(jī)語音識(shí)別達(dá)到了80%的準(zhǔn)確度。我們可以從口頭對(duì)話中提取意義，并做出回應(yīng)。然而，在大多數(shù)情況下，語音技術(shù)仍然不足以提供比鍵盤等界面更好的體驗(yàn)。

　　語音識(shí)別歷史

　　語音識(shí)別不是新鮮事，起源于上世紀(jì)五十年代，但多年來一直存在多種理解語音的方式。

　　個(gè)語音識(shí)別系統(tǒng)是基于簡(jiǎn)單的模式匹配。這些早期系統(tǒng)的一個(gè)很好的例子是公用事業(yè)公司使用自動(dòng)化系統(tǒng)讓客戶不用看儀表讀數(shù)。在這種情況下，客戶端對(duì)系統(tǒng)的回答是一個(gè)有限的選項(xiàng)列表中的一個(gè)字或數(shù)字，計(jì)算機(jī)只需要區(qū)分有限數(shù)量的不同聲音模式。它通過將每個(gè)聲音塊與其存儲(chǔ)器中的類似存儲(chǔ)模式進(jìn)行比較來實(shí)現(xiàn)。

　　在1952年，貝爾實(shí)驗(yàn)室的一個(gè)團(tuán)隊(duì)設(shè)計(jì)了能夠理解口頭數(shù)字的機(jī)器Audrey。

　　1970年代

　　技術(shù)進(jìn)步導(dǎo)致了基于模式和特征分析的語音識(shí)別系統(tǒng)的發(fā)展，其中每個(gè)單詞被分解成小部分并且從關(guān)鍵特征(例如它包含的元音)中被識(shí)別。這種方法涉及聲音的數(shù)字化和將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成頻譜圖，將其分解成聲音幀，分離單詞并識(shí)別每一個(gè)關(guān)鍵特征。為了識(shí)別可能已經(jīng)說過的內(nèi)容，計(jì)算機(jī)必須將每個(gè)單詞的關(guān)鍵特征與已知功能的列表進(jìn)行比較。系統(tǒng)越來越好，因?yàn)樗闪藖碜杂脩舻姆答仭＿@種方法比以前的方法要得多，因?yàn)榭谡Z的基本組件聲音數(shù)量相當(dāng)有限。

　　從1971年到1976年，DARPA資助了五年的語音識(shí)別研究，目標(biāo)是終能夠理解至少1000字的機(jī)器。該計(jì)劃導(dǎo)致卡耐基-梅隆大學(xué)大學(xué)創(chuàng)造了一個(gè)能夠理解1011個(gè)單詞的機(jī)器。

　　1980年代

　　但是此前的技術(shù)仍然不是非常的，因?yàn)檠哉Z中存在的巨大的復(fù)雜性：不同的人可以用不同的方式說出同一個(gè)詞，有許多相似的詞(例如two和too)等等。語音識(shí)別系統(tǒng)開始使用統(tǒng)計(jì)學(xué)方法。在此期間推出的關(guān)鍵技術(shù)是馬爾可夫模型(HMM)，用于建立聲學(xué)模型和隨機(jī)語言模型。

　　聲學(xué)模型代表音頻信號(hào)和語言中的語音單元之間的關(guān)系，以重建實(shí)際發(fā)出的內(nèi)容(特征→音位)。語言模型基于后一個(gè)單詞預(yù)測(cè)下一個(gè)單詞(單詞→句子)，例如。“God save the“之后可能出現(xiàn)的單詞是Queen(天佑女王)，另外，還有一個(gè)語音字典/詞典提供關(guān)于單詞及其發(fā)音的數(shù)據(jù)，并且連接聲學(xué)模型和語言模型(音素→單詞)。終，語言模型分?jǐn)?shù)與當(dāng)前單詞的聲學(xué)分?jǐn)?shù)相結(jié)合，以確定單詞序列的排序。

　　玩具娃娃Julie Doll在1989年將家庭語音識(shí)別技術(shù)帶到家庭中?？梢詭椭鷥和?xùn)練語音、說話。

　　一直到20世紀(jì)90年代，語音識(shí)別系統(tǒng)的速度都太慢，無法開發(fā)有用的應(yīng)用程序，但是當(dāng)時(shí)出現(xiàn)的更快的微處理器可以進(jìn)行重大改進(jìn)，而個(gè)語音識(shí)別商業(yè)應(yīng)用開始出現(xiàn)。

　　Dragon公司在1990年推出Dragon Dictate，是個(gè)消費(fèi)級(jí)語音識(shí)別產(chǎn)品。在1997年，你可以在一分鐘內(nèi)說100個(gè)字。

　　2000年代

　　計(jì)算機(jī)語音識(shí)別在2001年達(dá)到了80%的準(zhǔn)確度，但沒有多少進(jìn)展。

　　2010年代

　　在過去十年中，機(jī)器學(xué)習(xí)算法和計(jì)算機(jī)性能的進(jìn)步已經(jīng)導(dǎo)致了更有效的深層神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練方法。

　　因此，語音識(shí)別系統(tǒng)開始使用DNN，更具體地說，是DNN的特殊變體，即循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?；赗NN的模型顯示出比傳統(tǒng)模型更好的精度和性能。事實(shí)上，2016年的語音識(shí)別準(zhǔn)確度達(dá)到了90%，Google聲稱在2017年6月達(dá)到95%的準(zhǔn)確率。

　　這是非常驚人的，要知道研究人員估計(jì)人類轉(zhuǎn)錄精度略低于95%。然而，這些公布的結(jié)果應(yīng)該仔細(xì)考慮，因?yàn)樗鼈兺ǔＴ诘臈l件下測(cè)量，例如，沒有背景噪音和英語母語的錄音。在“非無菌條件下”的準(zhǔn)確度可能快速下降到75-80%。

　　當(dāng)你需要標(biāo)記數(shù)據(jù)來訓(xùn)練算法時(shí)，現(xiàn)在面臨的挑戰(zhàn)是獲取現(xiàn)實(shí)生活中數(shù)千小時(shí)的口語音頻，以提供給神經(jīng)網(wǎng)絡(luò)并提高語音識(shí)別系統(tǒng)的準(zhǔn)確性。這就是Google，亞馬遜，蘋果和微軟正在通過將Google Now，Siri和Cortana在手機(jī)免費(fèi)提供服務(wù)，以便宜的價(jià)格銷售Alexa智能音響的原因。一切都是為了獲取訓(xùn)練數(shù)據(jù)！

　　語音基礎(chǔ)設(shè)施的開發(fā)

　　語音基礎(chǔ)設(shè)施開發(fā)可以分為3個(gè)必需的層次：新的應(yīng)用程序出現(xiàn)：(1)硬件允許更多的人使用語音作為接口(2)軟件構(gòu)建塊，使開發(fā)人員能夠構(gòu)建相關(guān)的語音優(yōu)先的應(yīng)用程序(3)生態(tài)系統(tǒng)，以實(shí)現(xiàn)有效的分配和商業(yè)化。

　　語音分析公司Voicelabs將語音優(yōu)先設(shè)備定義為始終在線的智能硬件，而其中主界面是語音，包括輸入和輸出。市場(chǎng)上語音優(yōu)先的硬件是2014年底發(fā)布的智能音箱Amazon Echo。根據(jù)2017年VoiceLabs的報(bào)告，2015年發(fā)布的語音優(yōu)先設(shè)備達(dá)170萬臺(tái)，2016 年將達(dá)到650萬臺(tái)，2017年將有2450萬臺(tái)設(shè)備發(fā)貨，市場(chǎng)總流通設(shè)備數(shù)達(dá)到3300萬臺(tái)。

　　市場(chǎng)上的主要智能音響是Amazon Echo(2014年11月)和Google Home(2016年11月)。然而，新玩家正在迅速進(jìn)入市場(chǎng)：索尼推出了內(nèi)置Google助手(2017年9月)的LF-S50G，蘋果即將推出Homepod(2017年12月)，三星也近宣布“即將發(fā)布”，F(xiàn)acebook可能會(huì)發(fā)布帶觸摸屏的智能揚(yáng)聲器。Google助手還將來到一些新的智能音響，其中包括Anker的Zolo Mojo，Mobvoi的TicHome Mini和松下的GA10。

　　無疑，語音優(yōu)先的硬件層正在快速發(fā)展，預(yù)計(jì)會(huì)有所增長(zhǎng)！

　　語音優(yōu)先應(yīng)用程序的軟件構(gòu)建門檻降低

　　從頭開始構(gòu)建語音應(yīng)用程序不是一件容易的事情。Nuance和其他大型公司已經(jīng)向第三方開發(fā)人員提供語音識(shí)別API，但是使用這些API的成本歷來相當(dāng)高昂，并沒有獲得很好的結(jié)果。

　　隨著語音識(shí)別技術(shù)開始取得更好的成果，語音優(yōu)先應(yīng)用的潛力越來越大，像Google，亞馬遜，IBM，微軟和蘋果以及Speechmatics這樣的大型公司開始在較低級(jí)別提供各種低價(jià)的API產(chǎn)品。

　　一些常用的包括2016年7月發(fā)布的Google Speech API，和2016年11月發(fā)布的亞馬遜Lex和Amazon Polly。

　　現(xiàn)在，大量開發(fā)人員可以以合理的成本構(gòu)建語音優(yōu)先的應(yīng)用程序。

　　語音優(yōu)先生態(tài)系統(tǒng)的出現(xiàn)

　　隨著越來越多的語音優(yōu)先應(yīng)用和硬件帶來越來越多的語音交互界面，平臺(tái)不僅需要解決了分發(fā)和商業(yè)化，分析和營(yíng)銷自動(dòng)化等第三方服務(wù)也越來越重要。

　　(原標(biāo)題：為什么說語音可能是下一個(gè)Big thing？本文原作者Savina van der Straten，Point Nine Capital 的投資人，由騰股創(chuàng)投編譯整理。)

上一篇：公有云備受資本青睞 IaaS市場(chǎng)進(jìn)入增長(zhǎng)期

下一篇：新一輪投資潮悄然而至 VR市場(chǎng)有望復(fù)蘇

我要評(píng)論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個(gè)字符)

表情

所有評(píng)論僅代表網(wǎng)友意見，與本站立場(chǎng)無關(guān)。

中國(guó)機(jī)電一體化技術(shù)應(yīng)用協(xié)會(huì)批準(zhǔn)發(fā)布《人形機(jī)器人語音交互技術(shù)規(guī)范》等五項(xiàng)團(tuán)體標(biāo)準(zhǔn)的公告
中國(guó)機(jī)電一體化技術(shù)應(yīng)用協(xié)會(huì)批準(zhǔn)發(fā)布《人形機(jī)器人語音交互技術(shù)規(guī)范》等五項(xiàng)團(tuán)體標(biāo)準(zhǔn)的公告。
人形機(jī)器人語音交互
2025-01-22 16:36:04
國(guó)家重點(diǎn)研發(fā)計(jì)劃“機(jī)器人人機(jī)交互安全與試驗(yàn)驗(yàn)證”項(xiàng)目啟動(dòng)
“機(jī)器人人機(jī)交互安全與試驗(yàn)驗(yàn)證”項(xiàng)目將針對(duì)協(xié)作機(jī)器人和外骨骼機(jī)器人人機(jī)交互安全測(cè)評(píng)缺失問題，重點(diǎn)突破人機(jī)交互安全測(cè)評(píng)關(guān)鍵技術(shù)，研制測(cè)評(píng)系統(tǒng)，構(gòu)建測(cè)評(píng)體系。
機(jī)器人人機(jī)交互
2024-03-24 09:09:05
長(zhǎng)城多款車型已完成華為HiCar 4.0適配工作
長(zhǎng)城汽車總裁穆峰在社交平臺(tái)上透露，長(zhǎng)城汽車與華為智行的合作已經(jīng)取得了階段性的成果，HUAWEI HiCar4.0將在更多的車型上進(jìn)化升級(jí)。
人機(jī)交互
2024-03-18 10:15:59
用AI重構(gòu)PC，榮耀筆記本AI PC技術(shù)正式發(fā)布
榮耀公布了其領(lǐng)先的AI PC技術(shù)架構(gòu)，榮耀筆記本將會(huì)把AI技術(shù)與用戶體驗(yàn)全面融合，用AI使能智能硬件、人機(jī)交互和多端生態(tài)，開啟AI PC新時(shí)代。
AI PC技術(shù)AI使能智能硬件人機(jī)交互
2024-03-14 09:02:15
中國(guó)國(guó)際科技促進(jìn)會(huì)關(guān)于《三通管液壓成形技術(shù)規(guī)范》等七項(xiàng)團(tuán)體標(biāo)準(zhǔn)發(fā)布的公告
《城市軌道交通智能客服設(shè)備技術(shù)要求》、《多模態(tài)人機(jī)交互技術(shù)要求》、《城市軌道交通智能客服設(shè)備技術(shù)要求》等七項(xiàng)團(tuán)體標(biāo)準(zhǔn)已經(jīng)發(fā)布，現(xiàn)予以公告，即日起實(shí)施。
三通管測(cè)力天平人機(jī)交互
2023-12-20 14:38:47
長(zhǎng)安馬自達(dá)與中科創(chuàng)達(dá)軟件達(dá)成戰(zhàn)略合作，邁向智能化
長(zhǎng)安馬自達(dá)與中科創(chuàng)達(dá)軟件雙方將在HMI人機(jī)交互、UI設(shè)計(jì)、車內(nèi)應(yīng)用app等多方面進(jìn)行深度合作，打造更加符合中國(guó)市場(chǎng)的智能座艙產(chǎn)品，助力車企新合資時(shí)代的汽車研發(fā)轉(zhuǎn)型。
軟件人機(jī)交互
2023-11-07 14:18:17

版權(quán)與免責(zé)聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí)，必須保留本站注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯(cuò)過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點(diǎn)/FOCUS 更多

熱門話題/TOPICS更多

人形機(jī)器人奏響“狂歡曲”

高難度！深圳眾擎實(shí)現(xiàn)全球首例人形機(jī)器人前空翻

宇樹科技王興興：預(yù)計(jì)年底H1機(jī)器人跑速達(dá)10米/秒超博爾特

“智能經(jīng)濟(jì)”駛?cè)氚l(fā)展“快車道”

AI智能體Manus橫空出世！中國(guó)AI實(shí)現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉(zhuǎn)智改，安全先行！“以模制?！弊o(hù)航企業(yè)數(shù)智升級(jí)

精彩直播/VIDEO更多

回放

數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟(jì)分論壇

: 數(shù)字孿生賦能城市全域數(shù)字化轉(zhuǎn)型分論壇

推薦產(chǎn)品/PRODUCT 更多

代理德國(guó)ACS溫控閥芯
ACS閥芯,ACS溫控閥,德國(guó)ACS,ACS進(jìn)口溫控閥芯
品牌
其他品牌
一體化加藥裝置
加藥反應(yīng)設(shè)備,電廠加藥裝置,一體化加藥裝置,碳鋼、不銹鋼、非金屬,加藥設(shè)備
品牌
明基環(huán)保
威格士EATON平衡活塞式溢流閥本體材質(zhì)
美國(guó)VICKERS溢流閥,供應(yīng)威格士溢流閥,詳細(xì)介紹伊頓,EATON溢流閥訂貨號(hào),VICKERS溢流閥圖片
品牌
威格士/VICKERS
運(yùn)動(dòng)粘度測(cè)定儀儀表
運(yùn)動(dòng)粘度測(cè)定儀,ZXYDND-03
品牌
其他品牌
飽和蒸氣壓測(cè)定儀
飽和蒸氣壓測(cè)定儀,ZD-DSL-8017ZD
品牌
其他品牌
氫燃料電池漿料研磨分散機(jī)
燃料電池漿料分散機(jī),電池漿料分散機(jī),氫燃料電池分散機(jī),納米研磨分散機(jī)
品牌
其他品牌

国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

準(zhǔn)確性大幅提升語音識(shí)別或成下一個(gè)風(fēng)口

熱門評(píng)論

全部評(píng)論

国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

準(zhǔn)確性大幅提升 語音識(shí)別或成下一個(gè)風(fēng)口

熱門評(píng)論

全部評(píng)論

準(zhǔn)確性大幅提升語音識(shí)別或成下一個(gè)風(fēng)口