昨天愚人節(jié),各大互聯(lián)網(wǎng)公司跟瘋了似的推出了各種“愚人節(jié)產(chǎn)品”,各種天馬行空那個、腦洞炸開。手機百度推出的是一個叫做“神燈搜索”的功能,需要使用手機百度搭配“百度神燈”智能擴展配件來使用。用戶可以通過“摩擦摩擦”百度神燈的邊框啟動該功能,然后利用語音進行方便的搜索,搜索結(jié)果會以全息投影的形式呈現(xiàn)出來,并支持用戶進行多輪語音交互、支持用戶通過手指觸摸對影像進行放大、縮小等操作。
這個功能是真是假,我覺得不用現(xiàn)在花時間去討論,作為一個科技宅,我想花時間把這個功能里面可能涉及到的技術(shù)稍微盤點一下,盤點完了你就知道它到底能不能實現(xiàn)、離我們還有多遠了。
“神燈搜索”都涉及了哪些技術(shù)?
啟動“神燈搜索”,需要用手摩擦“百度神燈”的邊框,這個沒什么技術(shù)障礙,很多智能手機現(xiàn)在都支持熄屏狀態(tài)下的手勢喚醒等操作,加個感應器的事兒而已;然后是語音搜索,這個雖然現(xiàn)在已經(jīng)實現(xiàn)了,但是要實現(xiàn)后續(xù)的多輪對話,一方面需要更加出色的語音智能交互技術(shù),另一方面也需要背后人工智能技術(shù)的強力支持;最后,還需要全息投影技術(shù)的支持以及在全息投影上進行操作的虛擬觸控技術(shù)。
既然摩擦喚醒不是個難事兒,我們就來看看語音智能交互、人工智能、全息投影以及虛擬觸控技術(shù)的進展。探討一下如果真要做“神燈搜索”的話,還有哪些技術(shù)需要提升。
識別率不斷提升,語音智能交互初具規(guī)模
不同于大家熟悉的siri等語音產(chǎn)品,視頻中“神燈搜索”和用戶的語音智能交互過程讓人印象深刻,而這些部分功能的實現(xiàn)需要依托于語音識別和人工智能這兩個領域的進步。目前,谷歌、蘋果、百度、科大訊飛等國內(nèi)外企業(yè)都在語音識別領域發(fā)力,并取得了突破性進展。
既然“神燈搜索”是百度可能推出的功能,我們就來看看百度目前在語音技術(shù)方面的進展。類似視頻中演示的語音交互,其實包含了語音識別、語義理解和語音合成幾個方面的技術(shù),依托百度自然語言處理(NLP)及機器學習領域的經(jīng)驗,百度在語義理解方面的技術(shù)實力毋庸置疑;而近期,百度在語音識別率方面也取得了較大的突破。根據(jù)媒體的報道,百度首席科學家吳恩達曾透露,通過使用神經(jīng)元系統(tǒng)以及數(shù)據(jù)燃料,百度人工智能幫語音識別提高了準確性,百度語音識別可以很好地處理背景噪音,使手機離得比較遠也能很好地識別用戶講出的話。權(quán)威測試結(jié)果顯示,在噪音環(huán)境中,百度Deep Speech系統(tǒng)的出錯率要比谷歌語音識別引擎,微軟必應以及蘋果的語音系統(tǒng)低10%以上。這對類似神燈搜索這樣的依托語音智能交互的功能來說意義非常重大。