斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)教授James Landay
傳統(tǒng)的輸入方式大多數(shù)是通過鍵盤來實(shí)現(xiàn)的。而這是我們所能選擇的唯一方式嗎?近日,百度與百度、斯坦福大學(xué)和華盛頓大學(xué)共同完成的一項(xiàng)研究告訴我們:語音或許將能夠成為新的輸入方法。11月23日,在百度語音開放平臺上線三周年之際,該研究項(xiàng)目的負(fù)責(zé)人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)教授James Landay在接受環(huán)球科技采訪時詳細(xì)介紹了此次研究的結(jié)論,雖然語音輸入法仍然有局限性,但基于語音識別技術(shù),從速度、準(zhǔn)確性來說,語音輸入的表現(xiàn)已經(jīng)超過了傳統(tǒng)的鍵盤輸入。
而百度首席科學(xué)家吳恩達(dá)對語音識別技術(shù)的描述是:“人機(jī)交互最自然的方式”。
此次研究從19到32歲年齡段的人群中挑選了16名以英語為母語和16名以漢語(普通話)為母語的測試者,其中一半為女性一半為男性。
根據(jù)研究結(jié)果顯示,相比于傳統(tǒng)的鍵盤輸入,語音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢。利用語音輸入英語和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍。此外,通過加入糾錯功能后,語音輸入英語及普通話的準(zhǔn)確率進(jìn)一步提高,達(dá)到96.43%和92.35%,輸入速度仍為傳統(tǒng)方式的3倍和2.8倍。
事實(shí)上,根據(jù)以往的經(jīng)驗(yàn)來看,語音輸入無論從準(zhǔn)確性來說還是從速度上來說,都比不過鍵盤輸入。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語音識別開始獲得發(fā)展,越來越多的語音應(yīng)用開始受到關(guān)注。
2016年在《麻省理工科技評論》“十大突破性技術(shù)”盤點(diǎn)中,語音接口技術(shù)便成功入選。麻省理工科技評論認(rèn)為:通過該技術(shù),可將語音識別和自然語言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場創(chuàng)造切實(shí)可用的語音接口。語音識別將成為人機(jī)交互的重要方式。
語音識別技術(shù)的進(jìn)步已經(jīng)讓語音輸入完美了嗎?
雖然基于技術(shù)的進(jìn)步,語音識別已經(jīng)展現(xiàn)超越鍵盤輸入法的優(yōu)勢,但Landay教授對環(huán)球科技坦言,語音輸入法對于使用者的使用環(huán)境有著較多的要求,應(yīng)用場景往往受到限制。比如在會議中,即使語音輸入法有著再多的優(yōu)勢,使用者也不可能使用語音來進(jìn)行輸入。
“不同的環(huán)境適應(yīng)不同的輸入方式,某些環(huán)境下確實(shí)無法使用語音輸入,而在某些緊急的情況下,語音輸入則優(yōu)于傳統(tǒng)的鍵盤輸入。目前來看,兩種輸入方式是分開的,而我們正在考慮如何將兩者更好的融合在一起,這也是未來的一個研究方向?!盠anday教授說道。
在其看來,并沒有所謂的最好的人機(jī)交互模式。而是如何能夠?qū)崿F(xiàn)最為自然的人機(jī)交互模式。而目前來看,語音識別是最適合的方式。人的大腦向身體發(fā)送指令,使得人可以遵從自己的意愿進(jìn)行活動,而在交流過程中,神秘的大腦來進(jìn)行復(fù)雜的信息處理,這些都是機(jī)器難以實(shí)現(xiàn)的。
如何讓機(jī)器更夠更好的獲得并分析人類所下達(dá)的指令,語音識別技術(shù)為這一目標(biāo)的實(shí)現(xiàn)創(chuàng)造了可能。
而這也是百度正在考慮的事情。吳恩達(dá)認(rèn)為:這些技術(shù)有很大的潛力,可以改變?nèi)藱C(jī)交互的效率和辦法。這也是百度不斷發(fā)力百度大腦,大力投入語音識別技術(shù)deep speech的原因。
而此次,Landay教授能與百度共同合作來完成項(xiàng)目的研究,一方面是由于他和吳恩達(dá)是舊識,而更大的原因是他認(rèn)為百度在語音識別方面的技術(shù)水平已經(jīng)達(dá)到了世界級標(biāo)準(zhǔn)。
“我從吳恩達(dá)哪里了解到了許多百度的發(fā)展情況,當(dāng)他提起這個項(xiàng)目的時候,我覺得真的可以來看看語音識別和鍵盤輸入究竟有多大的差別,試試語音識別現(xiàn)在究竟能做到怎樣的程度?!?/p>
而研究結(jié)果也說明了語音識別技術(shù)的快速發(fā)展?!敖鼉赡?,受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音識別技術(shù)突飛猛進(jìn),速度及準(zhǔn)確性都有了長足進(jìn)步?!盠anday教授說道。
百度的技術(shù)團(tuán)隊(duì)一直在不斷地優(yōu)化語音識別系統(tǒng):在2012年開始使用DNN模型,之后開始用Sequence Discriminative Training,也開始使用LSTM模型,加上CTC,2016年更是開發(fā)了Deep CNN模型,效果在不斷進(jìn)步。
目前,僅從百度的產(chǎn)品來看,包括手機(jī)百度、百度地圖、百度輸入法在內(nèi)的很多百度產(chǎn)品中,都已經(jīng)支持語音輸入,。
而這些技術(shù)旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關(guān)鍵問題。例如,百度情感合成技術(shù)主要聚焦在為合成語音“加入情感”,目前可達(dá)到接近真人發(fā)聲效果,百度今年早些時候曾利用此技術(shù),復(fù)原已逝明星張國榮的聲音。
類似地,開發(fā)者還可以利用新的接口,使語音識別距離增加到3-5米,將設(shè)備的語音喚醒率提升到95%以上同時更省電誤報(bào)更少,或提升長時間語音識別的準(zhǔn)確率問題。這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。
今年2月,百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語音技術(shù)在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領(lǐng)先科技成果
“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來語音技術(shù)在很多應(yīng)用場景有很好的機(jī)會,將為人機(jī)交互帶來巨大的改變?!眳嵌鬟_(dá)表示。
鄂ICP備2020021375號-2
網(wǎng)絡(luò)傳播視聽節(jié)目許可證(0107190)
備案號:42010602003527
今日湖北網(wǎng)版權(quán)所有
技術(shù)支持:湖北報(bào)網(wǎng)新聞傳媒有限公司
舉報(bào)電話:027-88568010
運(yùn)維監(jiān)督:13307199555