地方頻道：

您的當(dāng)前位置：首頁(yè)>科技

成人機(jī)交互最自然的方式

2016-11-25 21:10:34 來(lái)源：環(huán)球網(wǎng)

斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授James Landay

傳統(tǒng)的輸入方式大多數(shù)是通過(guò)鍵盤(pán)來(lái)實(shí)現(xiàn)的。而這是我們所能選擇的唯一方式嗎？近日，百度與百度、斯坦福大學(xué)和華盛頓大學(xué)共同完成的一項(xiàng)研究告訴我們：語(yǔ)音或許將能夠成為新的輸入方法。11月23日，在百度語(yǔ)音開(kāi)放平臺(tái)上線三周年之際，該研究項(xiàng)目的負(fù)責(zé)人，斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授James Landay在接受環(huán)球科技采訪時(shí)詳細(xì)介紹了此次研究的結(jié)論，雖然語(yǔ)音輸入法仍然有局限性，但基于語(yǔ)音識(shí)別技術(shù)，從速度、準(zhǔn)確性來(lái)說(shuō)，語(yǔ)音輸入的表現(xiàn)已經(jīng)超過(guò)了傳統(tǒng)的鍵盤(pán)輸入。

而百度首席科學(xué)家吳恩達(dá)對(duì)語(yǔ)音識(shí)別技術(shù)的描述是：“人機(jī)交互最自然的方式”。

此次研究從19到32歲年齡段的人群中挑選了16名以英語(yǔ)為母語(yǔ)和16名以漢語(yǔ)(普通話)為母語(yǔ)的測(cè)試者，其中一半為女性一半為男性。

根據(jù)研究結(jié)果顯示，相比于傳統(tǒng)的鍵盤(pán)輸入，語(yǔ)音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢(shì)。利用語(yǔ)音輸入英語(yǔ)和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍。此外，通過(guò)加入糾錯(cuò)功能后，語(yǔ)音輸入英語(yǔ)及普通話的準(zhǔn)確率進(jìn)一步提高，達(dá)到96.43%和92.35%，輸入速度仍為傳統(tǒng)方式的3倍和2.8倍。

事實(shí)上，根據(jù)以往的經(jīng)驗(yàn)來(lái)看，語(yǔ)音輸入無(wú)論從準(zhǔn)確性來(lái)說(shuō)還是從速度上來(lái)說(shuō)，都比不過(guò)鍵盤(pán)輸入。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展，語(yǔ)音識(shí)別開(kāi)始獲得發(fā)展，越來(lái)越多的語(yǔ)音應(yīng)用開(kāi)始受到關(guān)注。

2016年在《麻省理工科技評(píng)論》“十大突破性技術(shù)”盤(pán)點(diǎn)中，語(yǔ)音接口技術(shù)便成功入選。麻省理工科技評(píng)論認(rèn)為：通過(guò)該技術(shù)，可將語(yǔ)音識(shí)別和自然語(yǔ)言理解相結(jié)合，為全球互聯(lián)網(wǎng)市場(chǎng)創(chuàng)造切實(shí)可用的語(yǔ)音接口。語(yǔ)音識(shí)別將成為人機(jī)交互的重要方式。

語(yǔ)音識(shí)別技術(shù)的進(jìn)步已經(jīng)讓語(yǔ)音輸入完美了嗎？

雖然基于技術(shù)的進(jìn)步，語(yǔ)音識(shí)別已經(jīng)展現(xiàn)超越鍵盤(pán)輸入法的優(yōu)勢(shì)，但Landay教授對(duì)環(huán)球科技坦言，語(yǔ)音輸入法對(duì)于使用者的使用環(huán)境有著較多的要求，應(yīng)用場(chǎng)景往往受到限制。比如在會(huì)議中，即使語(yǔ)音輸入法有著再多的優(yōu)勢(shì)，使用者也不可能使用語(yǔ)音來(lái)進(jìn)行輸入。

“不同的環(huán)境適應(yīng)不同的輸入方式，某些環(huán)境下確實(shí)無(wú)法使用語(yǔ)音輸入，而在某些緊急的情況下，語(yǔ)音輸入則優(yōu)于傳統(tǒng)的鍵盤(pán)輸入。目前來(lái)看，兩種輸入方式是分開(kāi)的，而我們正在考慮如何將兩者更好的融合在一起，這也是未來(lái)的一個(gè)研究方向?！盠anday教授說(shuō)道。

在其看來(lái)，并沒(méi)有所謂的最好的人機(jī)交互模式。而是如何能夠?qū)崿F(xiàn)最為自然的人機(jī)交互模式。而目前來(lái)看，語(yǔ)音識(shí)別是最適合的方式。人的大腦向身體發(fā)送指令，使得人可以遵從自己的意愿進(jìn)行活動(dòng)，而在交流過(guò)程中，神秘的大腦來(lái)進(jìn)行復(fù)雜的信息處理，這些都是機(jī)器難以實(shí)現(xiàn)的。

如何讓機(jī)器更夠更好的獲得并分析人類(lèi)所下達(dá)的指令，語(yǔ)音識(shí)別技術(shù)為這一目標(biāo)的實(shí)現(xiàn)創(chuàng)造了可能。

而這也是百度正在考慮的事情。吳恩達(dá)認(rèn)為：這些技術(shù)有很大的潛力，可以改變?nèi)藱C(jī)交互的效率和辦法。這也是百度不斷發(fā)力百度大腦，大力投入語(yǔ)音識(shí)別技術(shù)deep speech的原因。

而此次，Landay教授能與百度共同合作來(lái)完成項(xiàng)目的研究，一方面是由于他和吳恩達(dá)是舊識(shí)，而更大的原因是他認(rèn)為百度在語(yǔ)音識(shí)別方面的技術(shù)水平已經(jīng)達(dá)到了世界級(jí)標(biāo)準(zhǔn)。

“我從吳恩達(dá)哪里了解到了許多百度的發(fā)展情況，當(dāng)他提起這個(gè)項(xiàng)目的時(shí)候，我覺(jué)得真的可以來(lái)看看語(yǔ)音識(shí)別和鍵盤(pán)輸入究竟有多大的差別，試試語(yǔ)音識(shí)別現(xiàn)在究竟能做到怎樣的程度。”

而研究結(jié)果也說(shuō)明了語(yǔ)音識(shí)別技術(shù)的快速發(fā)展?！敖鼉赡?，受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展，語(yǔ)音識(shí)別技術(shù)突飛猛進(jìn)，速度及準(zhǔn)確性都有了長(zhǎng)足進(jìn)步?！盠anday教授說(shuō)道。

百度的技術(shù)團(tuán)隊(duì)一直在不斷地優(yōu)化語(yǔ)音識(shí)別系統(tǒng)：在2012年開(kāi)始使用DNN模型，之后開(kāi)始用Sequence Discriminative Training，也開(kāi)始使用LSTM模型，加上CTC，2016年更是開(kāi)發(fā)了Deep CNN模型，效果在不斷進(jìn)步。

目前，僅從百度的產(chǎn)品來(lái)看，包括手機(jī)百度、百度地圖、百度輸入法在內(nèi)的很多百度產(chǎn)品中，都已經(jīng)支持語(yǔ)音輸入，。

而這些技術(shù)旨在解決用戶(hù)在使用語(yǔ)音交互的場(chǎng)合時(shí)，普遍感到困擾的一些關(guān)鍵問(wèn)題。例如，百度情感合成技術(shù)主要聚焦在為合成語(yǔ)音“加入情感”，目前可達(dá)到接近真人發(fā)聲效果，百度今年早些時(shí)候曾利用此技術(shù)，復(fù)原已逝明星張國(guó)榮的聲音。

類(lèi)似地，開(kāi)發(fā)者還可以利用新的接口，使語(yǔ)音識(shí)別距離增加到3-5米，將設(shè)備的語(yǔ)音喚醒率提升到95%以上同時(shí)更省電誤報(bào)更少，或提升長(zhǎng)時(shí)間語(yǔ)音識(shí)別的準(zhǔn)確率問(wèn)題。這將為語(yǔ)音技術(shù)帶來(lái)遠(yuǎn)比現(xiàn)在更多的想象空間，而不只是遙控電視或解鎖手機(jī)。

今年2月，百度深度語(yǔ)音識(shí)別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語(yǔ)音技術(shù)在內(nèi)的百度大腦，入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)15大領(lǐng)先科技成果

“這些技術(shù)有很大的潛力，去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來(lái)語(yǔ)音技術(shù)在很多應(yīng)用場(chǎng)景有很好的機(jī)會(huì)，將為人機(jī)交互帶來(lái)巨大的改變。”吳恩達(dá)表示。

上一篇: 竹山縣“智慧農(nóng)村”經(jīng)濟(jì)社會(huì)效益凸顯
下一篇: 法國(guó)向蘋(píng)果公司開(kāi)出4.22億美元罰單

黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址