斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)教授James Landay

傳統(tǒng)的輸入方式大多數(shù)是通過鍵盤來實(shí)現(xiàn)的。而這是我們所能選擇的唯一方式嗎？近日，百度與百度、斯坦福大學(xué)和華盛頓大學(xué)共同完成的一項(xiàng)研究告訴我們：語音或許將能夠成為新的輸入方法。11月23日，在百度語音開放平臺上線三周年之際，該研究項(xiàng)目的負(fù)責(zé)人，斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)教授James Landay在接受環(huán)球科技采訪時詳細(xì)介紹了此次研究的結(jié)論，雖然語音輸入法仍然有局限性，但基于語音識別技術(shù)，從速度、準(zhǔn)確性來說，語音輸入的表現(xiàn)已經(jīng)超過了傳統(tǒng)的鍵盤輸入。

而百度首席科學(xué)家吳恩達(dá)對語音識別技術(shù)的描述是：“人機(jī)交互最自然的方式”。

此次研究從19到32歲年齡段的人群中挑選了16名以英語為母語和16名以漢語(普通話)為母語的測試者，其中一半為女性一半為男性。

根據(jù)研究結(jié)果顯示，相比于傳統(tǒng)的鍵盤輸入，語音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢。利用語音輸入英語和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍。此外，通過加入糾錯功能后，語音輸入英語及普通話的準(zhǔn)確率進(jìn)一步提高，達(dá)到96.43%和92.35%，輸入速度仍為傳統(tǒng)方式的3倍和2.8倍。

事實(shí)上，根據(jù)以往的經(jīng)驗(yàn)來看，語音輸入無論從準(zhǔn)確性來說還是從速度上來說，都比不過鍵盤輸入。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展，語音識別開始獲得發(fā)展，越來越多的語音應(yīng)用開始受到關(guān)注。

2016年在《麻省理工科技評論》“十大突破性技術(shù)”盤點(diǎn)中，語音接口技術(shù)便成功入選。麻省理工科技評論認(rèn)為：通過該技術(shù)，可將語音識別和自然語言理解相結(jié)合，為全球互聯(lián)網(wǎng)市場創(chuàng)造切實(shí)可用的語音接口。語音識別將成為人機(jī)交互的重要方式。

語音識別技術(shù)的進(jìn)步已經(jīng)讓語音輸入完美了嗎？

雖然基于技術(shù)的進(jìn)步，語音識別已經(jīng)展現(xiàn)超越鍵盤輸入法的優(yōu)勢，但Landay教授對環(huán)球科技坦言，語音輸入法對于使用者的使用環(huán)境有著較多的要求，應(yīng)用場景往往受到限制。比如在會議中，即使語音輸入法有著再多的優(yōu)勢，使用者也不可能使用語音來進(jìn)行輸入。

“不同的環(huán)境適應(yīng)不同的輸入方式，某些環(huán)境下確實(shí)無法使用語音輸入，而在某些緊急的情況下，語音輸入則優(yōu)于傳統(tǒng)的鍵盤輸入。目前來看，兩種輸入方式是分開的，而我們正在考慮如何將兩者更好的融合在一起，這也是未來的一個研究方向?！盠anday教授說道。

在其看來，并沒有所謂的最好的人機(jī)交互模式。而是如何能夠?qū)崿F(xiàn)最為自然的人機(jī)交互模式。而目前來看，語音識別是最適合的方式。人的大腦向身體發(fā)送指令，使得人可以遵從自己的意愿進(jìn)行活動，而在交流過程中，神秘的大腦來進(jìn)行復(fù)雜的信息處理，這些都是機(jī)器難以實(shí)現(xiàn)的。

如何讓機(jī)器更夠更好的獲得并分析人類所下達(dá)的指令，語音識別技術(shù)為這一目標(biāo)的實(shí)現(xiàn)創(chuàng)造了可能。

而這也是百度正在考慮的事情。吳恩達(dá)認(rèn)為：這些技術(shù)有很大的潛力，可以改變?nèi)藱C(jī)交互的效率和辦法。這也是百度不斷發(fā)力百度大腦，大力投入語音識別技術(shù)deep speech的原因。

而此次，Landay教授能與百度共同合作來完成項(xiàng)目的研究，一方面是由于他和吳恩達(dá)是舊識，而更大的原因是他認(rèn)為百度在語音識別方面的技術(shù)水平已經(jīng)達(dá)到了世界級標(biāo)準(zhǔn)。

“我從吳恩達(dá)哪里了解到了許多百度的發(fā)展情況，當(dāng)他提起這個項(xiàng)目的時候，我覺得真的可以來看看語音識別和鍵盤輸入究竟有多大的差別，試試語音識別現(xiàn)在究竟能做到怎樣的程度?！?/p>

而研究結(jié)果也說明了語音識別技術(shù)的快速發(fā)展?！敖鼉赡?，受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展，語音識別技術(shù)突飛猛進(jìn)，速度及準(zhǔn)確性都有了長足進(jìn)步?！盠anday教授說道。

百度的技術(shù)團(tuán)隊(duì)一直在不斷地優(yōu)化語音識別系統(tǒng)：在2012年開始使用DNN模型，之后開始用Sequence Discriminative Training，也開始使用LSTM模型，加上CTC，2016年更是開發(fā)了Deep CNN模型，效果在不斷進(jìn)步。

目前，僅從百度的產(chǎn)品來看，包括手機(jī)百度、百度地圖、百度輸入法在內(nèi)的很多百度產(chǎn)品中，都已經(jīng)支持語音輸入，。

而這些技術(shù)旨在解決用戶在使用語音交互的場合時，普遍感到困擾的一些關(guān)鍵問題。例如，百度情感合成技術(shù)主要聚焦在為合成語音“加入情感”，目前可達(dá)到接近真人發(fā)聲效果，百度今年早些時候曾利用此技術(shù)，復(fù)原已逝明星張國榮的聲音。

類似地，開發(fā)者還可以利用新的接口，使語音識別距離增加到3-5米，將設(shè)備的語音喚醒率提升到95%以上同時更省電誤報(bào)更少，或提升長時間語音識別的準(zhǔn)確率問題。這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間，而不只是遙控電視或解鎖手機(jī)。

今年2月，百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語音技術(shù)在內(nèi)的百度大腦，入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領(lǐng)先科技成果

“這些技術(shù)有很大的潛力，去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來語音技術(shù)在很多應(yīng)用場景有很好的機(jī)會，將為人機(jī)交互帶來巨大的改變?！眳嵌鬟_(dá)表示。

黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址

成人機(jī)交互最自然的方式

鄂ICP備2020021375號-2

網(wǎng)絡(luò)傳播視聽節(jié)目許可證(0107190)

備案號:42010602003527

今日湖北網(wǎng)版權(quán)所有

技術(shù)支持：湖北報(bào)網(wǎng)新聞傳媒有限公司
舉報(bào)電話：027-88568010

運(yùn)維監(jiān)督：13307199555

黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址

成人機(jī)交互最自然的方式

鄂ICP備2020021375號-2 網(wǎng)絡(luò)傳播視聽節(jié)目許可證(0107190) 備案號:42010602003527

今日湖北網(wǎng)版權(quán)所有 技術(shù)支持：湖北報(bào)網(wǎng)新聞傳媒有限公司 舉報(bào)電話：027-88568010 運(yùn)維監(jiān)督：13307199555

鄂ICP備2020021375號-2

網(wǎng)絡(luò)傳播視聽節(jié)目許可證(0107190)

備案號:42010602003527

今日湖北網(wǎng)版權(quán)所有

技術(shù)支持：湖北報(bào)網(wǎng)新聞傳媒有限公司
舉報(bào)電話：027-88568010

運(yùn)維監(jiān)督：13307199555