斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授James Landay
傳統(tǒng)的輸入方式大多數(shù)是通過(guò)鍵盤(pán)來(lái)實(shí)現(xiàn)的。而這是我們所能選擇的唯一方式嗎?近日,百度與百度、斯坦福大學(xué)和華盛頓大學(xué)共同完成的一項(xiàng)研究告訴我們:語(yǔ)音或許將能夠成為新的輸入方法。11月23日,在百度語(yǔ)音開(kāi)放平臺(tái)上線三周年之際,該研究項(xiàng)目的負(fù)責(zé)人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授James Landay在接受環(huán)球科技采訪時(shí)詳細(xì)介紹了此次研究的結(jié)論,雖然語(yǔ)音輸入法仍然有局限性,但基于語(yǔ)音識(shí)別技術(shù),從速度、準(zhǔn)確性來(lái)說(shuō),語(yǔ)音輸入的表現(xiàn)已經(jīng)超過(guò)了傳統(tǒng)的鍵盤(pán)輸入。
而百度首席科學(xué)家吳恩達(dá)對(duì)語(yǔ)音識(shí)別技術(shù)的描述是:“人機(jī)交互最自然的方式”。
此次研究從19到32歲年齡段的人群中挑選了16名以英語(yǔ)為母語(yǔ)和16名以漢語(yǔ)(普通話)為母語(yǔ)的測(cè)試者,其中一半為女性一半為男性。
根據(jù)研究結(jié)果顯示,相比于傳統(tǒng)的鍵盤(pán)輸入,語(yǔ)音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢(shì)。利用語(yǔ)音輸入英語(yǔ)和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍。此外,通過(guò)加入糾錯(cuò)功能后,語(yǔ)音輸入英語(yǔ)及普通話的準(zhǔn)確率進(jìn)一步提高,達(dá)到96.43%和92.35%,輸入速度仍為傳統(tǒng)方式的3倍和2.8倍。
事實(shí)上,根據(jù)以往的經(jīng)驗(yàn)來(lái)看,語(yǔ)音輸入無(wú)論從準(zhǔn)確性來(lái)說(shuō)還是從速度上來(lái)說(shuō),都比不過(guò)鍵盤(pán)輸入。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)音識(shí)別開(kāi)始獲得發(fā)展,越來(lái)越多的語(yǔ)音應(yīng)用開(kāi)始受到關(guān)注。
2016年在《麻省理工科技評(píng)論》“十大突破性技術(shù)”盤(pán)點(diǎn)中,語(yǔ)音接口技術(shù)便成功入選。麻省理工科技評(píng)論認(rèn)為:通過(guò)該技術(shù),可將語(yǔ)音識(shí)別和自然語(yǔ)言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場(chǎng)創(chuàng)造切實(shí)可用的語(yǔ)音接口。語(yǔ)音識(shí)別將成為人機(jī)交互的重要方式。
語(yǔ)音識(shí)別技術(shù)的進(jìn)步已經(jīng)讓語(yǔ)音輸入完美了嗎?
雖然基于技術(shù)的進(jìn)步,語(yǔ)音識(shí)別已經(jīng)展現(xiàn)超越鍵盤(pán)輸入法的優(yōu)勢(shì),但Landay教授對(duì)環(huán)球科技坦言,語(yǔ)音輸入法對(duì)于使用者的使用環(huán)境有著較多的要求,應(yīng)用場(chǎng)景往往受到限制。比如在會(huì)議中,即使語(yǔ)音輸入法有著再多的優(yōu)勢(shì),使用者也不可能使用語(yǔ)音來(lái)進(jìn)行輸入。
“不同的環(huán)境適應(yīng)不同的輸入方式,某些環(huán)境下確實(shí)無(wú)法使用語(yǔ)音輸入,而在某些緊急的情況下,語(yǔ)音輸入則優(yōu)于傳統(tǒng)的鍵盤(pán)輸入。目前來(lái)看,兩種輸入方式是分開(kāi)的,而我們正在考慮如何將兩者更好的融合在一起,這也是未來(lái)的一個(gè)研究方向?!盠anday教授說(shuō)道。
在其看來(lái),并沒(méi)有所謂的最好的人機(jī)交互模式。而是如何能夠?qū)崿F(xiàn)最為自然的人機(jī)交互模式。而目前來(lái)看,語(yǔ)音識(shí)別是最適合的方式。人的大腦向身體發(fā)送指令,使得人可以遵從自己的意愿進(jìn)行活動(dòng),而在交流過(guò)程中,神秘的大腦來(lái)進(jìn)行復(fù)雜的信息處理,這些都是機(jī)器難以實(shí)現(xiàn)的。
如何讓機(jī)器更夠更好的獲得并分析人類(lèi)所下達(dá)的指令,語(yǔ)音識(shí)別技術(shù)為這一目標(biāo)的實(shí)現(xiàn)創(chuàng)造了可能。
而這也是百度正在考慮的事情。吳恩達(dá)認(rèn)為:這些技術(shù)有很大的潛力,可以改變?nèi)藱C(jī)交互的效率和辦法。這也是百度不斷發(fā)力百度大腦,大力投入語(yǔ)音識(shí)別技術(shù)deep speech的原因。
而此次,Landay教授能與百度共同合作來(lái)完成項(xiàng)目的研究,一方面是由于他和吳恩達(dá)是舊識(shí),而更大的原因是他認(rèn)為百度在語(yǔ)音識(shí)別方面的技術(shù)水平已經(jīng)達(dá)到了世界級(jí)標(biāo)準(zhǔn)。
“我從吳恩達(dá)哪里了解到了許多百度的發(fā)展情況,當(dāng)他提起這個(gè)項(xiàng)目的時(shí)候,我覺(jué)得真的可以來(lái)看看語(yǔ)音識(shí)別和鍵盤(pán)輸入究竟有多大的差別,試試語(yǔ)音識(shí)別現(xiàn)在究竟能做到怎樣的程度。”
而研究結(jié)果也說(shuō)明了語(yǔ)音識(shí)別技術(shù)的快速發(fā)展?!敖鼉赡?,受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)突飛猛進(jìn),速度及準(zhǔn)確性都有了長(zhǎng)足進(jìn)步?!盠anday教授說(shuō)道。
百度的技術(shù)團(tuán)隊(duì)一直在不斷地優(yōu)化語(yǔ)音識(shí)別系統(tǒng):在2012年開(kāi)始使用DNN模型,之后開(kāi)始用Sequence Discriminative Training,也開(kāi)始使用LSTM模型,加上CTC,2016年更是開(kāi)發(fā)了Deep CNN模型,效果在不斷進(jìn)步。
目前,僅從百度的產(chǎn)品來(lái)看,包括手機(jī)百度、百度地圖、百度輸入法在內(nèi)的很多百度產(chǎn)品中,都已經(jīng)支持語(yǔ)音輸入,。
而這些技術(shù)旨在解決用戶(hù)在使用語(yǔ)音交互的場(chǎng)合時(shí),普遍感到困擾的一些關(guān)鍵問(wèn)題。例如,百度情感合成技術(shù)主要聚焦在為合成語(yǔ)音“加入情感”,目前可達(dá)到接近真人發(fā)聲效果,百度今年早些時(shí)候曾利用此技術(shù),復(fù)原已逝明星張國(guó)榮的聲音。
類(lèi)似地,開(kāi)發(fā)者還可以利用新的接口,使語(yǔ)音識(shí)別距離增加到3-5米,將設(shè)備的語(yǔ)音喚醒率提升到95%以上同時(shí)更省電誤報(bào)更少,或提升長(zhǎng)時(shí)間語(yǔ)音識(shí)別的準(zhǔn)確率問(wèn)題。這將為語(yǔ)音技術(shù)帶來(lái)遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。
今年2月,百度深度語(yǔ)音識(shí)別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語(yǔ)音技術(shù)在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)15大領(lǐng)先科技成果
“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來(lái)語(yǔ)音技術(shù)在很多應(yīng)用場(chǎng)景有很好的機(jī)會(huì),將為人機(jī)交互帶來(lái)巨大的改變。”吳恩達(dá)表示。