旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 今日必讀 > 網(wǎng)易設(shè)計(jì)師總結(jié)--超全面的語音交互知識科普

網(wǎng)易設(shè)計(jì)師總結(jié)--超全面的語音交互知識科普

時(shí)間:2018-01-25來源:lb577.com點(diǎn)擊量:作者:fubowen
時(shí)間:2018-01-25點(diǎn)擊量:作者:fubowen

為什么會(huì)有語音交互?它適用于什么場景?不適用于哪些?文章為你解讀。

 

一. 什么是語音交互

在沒有機(jī)器之前,人類最早的交互方式就是語言和動(dòng)作。如今,在自然交互方式的趨勢下,我們又回到了語言這種交互形式上。

原始的交互方式,就是人與人用語言、動(dòng)作、眼神交互,人與物用動(dòng)作交互。機(jī)器剛出現(xiàn)的時(shí)候,并沒有人機(jī)交互的理念,機(jī)器很難操作,需要人去學(xué)習(xí)和適應(yīng)。肖爾斯的「QWERTY」鍵盤會(huì)流傳開來就是因?yàn)檫@種字母的排列設(shè)計(jì)可以降低打字速度,避免快速輸入造成按鍵連桿的互相干涉。

二戰(zhàn)期間的研究促進(jìn)了人因工程的發(fā)展,機(jī)器適應(yīng)人類、提高人的效率的理念得到發(fā)展。在計(jì)算機(jī)領(lǐng)域,從命令行界面(CLI)進(jìn)入到圖形用戶界面(GUI)是一大突破,隨后發(fā)展到目前的主流操作方式觸控,使用手指在屏幕上滑動(dòng)點(diǎn)按。語音交互界面(Voice User Interface,VUI)、手勢、動(dòng)作、表情交互,甚至腦機(jī)接口,都屬于自然用戶界面(NUI)。

從載體上分,語音交互以手機(jī)或電腦為載體,或以其他硬件為載體。除了這些,在客服、教育和醫(yī)療等行業(yè)也都有應(yīng)用,如客服語音質(zhì)檢、口語測評等。

 

△ 語音交互界面的形式

 

二. 如何評價(jià)語音交互

VUI的效率高還是低?

高效的交互方式就是好的交互方式。人機(jī)交互在于提高人的使用表現(xiàn),從速度、準(zhǔn)確性、注意負(fù)荷三個(gè)維度衡量。讓用戶速度越快、越準(zhǔn)確,并且占用最少注意負(fù)荷的就是好的交互。我們來看幾種情況。

輸入文本:效率極高。人說話的速度比打字快,且不需要分心看屏幕,考慮到打字輸入也有錯(cuò)誤,語音交互在輸入文本表現(xiàn)不錯(cuò)。因此很多產(chǎn)品都會(huì)在文本輸入處加上語音入口。

布置任務(wù):如果我們想打快車回家,用語音助手還是圖形界面的打車APP更快?由于路徑短,語音助手的理論速度更快,喚醒Siri并說句話,不需要打開APP再點(diǎn)選。在現(xiàn)有狀況下,輸入任務(wù)容易出錯(cuò)。如果命令語言出現(xiàn)偏差,語音助手聽不懂你的意思,就會(huì)導(dǎo)致任務(wù)失敗。我們需要思考該怎么布置任務(wù),是說「我要打車回家」還是「打開XX并打車回家」?如果語音助手三次都聽不懂命令,你還會(huì)繼續(xù)嘗試嗎?放棄語音布置任務(wù),只要打開APP,找到熟悉的入口點(diǎn)擊操作就完成了。

輸出:相比即時(shí)的圖形反饋,語音是一種不太合格的輸出方式,它過于緩慢、效率低下。由于聽覺是線性的,我們只能聽完一句話再聽下一句,而不能像視覺一樣瞬間完成圖片加工,也不能在文本間掃描跳過,電話語音服務(wù)系統(tǒng)就是這種浪費(fèi)時(shí)間的方式。另外,持續(xù)聽語音還會(huì)消耗大量注意和記憶資源。如果客服念完卻沒有聽到想要的內(nèi)容,重聽按0是另一場噩夢。另一方面,我們大部分的信息來自于視覺,但語音方式不能輸出視覺信息。

適合雙手被占用的場合

語音交互適合在哪里使用?雙手被占用時(shí),如駕駛、烹飪、游戲等情況。比如,開車時(shí)眼睛需要看路,雙手握著方向盤,而且車內(nèi)環(huán)境既安靜又私密,這種情況下就適合使用語音交互。另外,在輸出層面上,如果視覺通道被占用,聽覺通道更適合接收緊急和重要的通知。

門檻極低

語音交互的支持者認(rèn)為,語音是最自然的交互方式。人人都會(huì)說話,門檻極低,尤其對于輸出困難人群(如視力障礙人群),他們完全可以無障礙的使用語音交互的形式。但是另一方面,習(xí)慣觸控的人群不一定愿意轉(zhuǎn)向語音,對新技術(shù)有畏難情緒的人群也可能不愿意嘗試語音交互這種「新」的技術(shù)。

語音可以傳遞情感,但人還不適應(yīng)和機(jī)器交談。

語音由于有聲調(diào)和節(jié)奏,相比文字,更能傳遞情感。問題在于我們不習(xí)慣和機(jī)器人或者手機(jī)對話。據(jù)統(tǒng)計(jì),在公共場合使用Siri的人只有3%。我們默認(rèn)語言是人和人交流的方式,或是和貓、狗這種我們認(rèn)為有人性的動(dòng)物交流的方式。當(dāng)人與物進(jìn)行交流時(shí),更多會(huì)采用動(dòng)作交互。因此人和手機(jī)說話時(shí)會(huì)有很奇怪的感覺,尤其對于東方人來說,心理障礙可能會(huì)更大。

為了減少用戶的壓力,拉近心理距離,很多智能語音助手會(huì)設(shè)定自己的「人物形象」。例如Siri高冷又忠誠,微軟小冰可愛又貧嘴。另外,語音助手大多是女性聲音,也是因?yàn)榕缘穆曇袈犉饋砀雍蜕瓢荨T诓僮鬟^程中出現(xiàn)問題,如果響起了男性的聲音,容易給使用者產(chǎn)生被責(zé)備、被批評的感覺。

不過,語音助手也不能太像真正的人??植拦壤碚撜J(rèn)為,對于和人越來越像的東西,我們的好感會(huì)上升,但我們厭惡很像人而不是人的東西,例如僵尸。從恐怖谷的理論來看,我們可能會(huì)害怕逼真的語音助手。

△ 恐怖谷

不適合在公開場合使用

語音交互不適合在公開場合使用,尤其是圖書館、辦公室這類安靜的場合。

身份識別問題。在漢堡王的一則視頻廣告里,售貨員最后湊近屏幕,說“OK google, what’s the whoppers?”?!窸K google」是安卓手機(jī)和Google Home的喚醒詞,用戶會(huì)發(fā)現(xiàn)在自己沒有下達(dá)命令的情況下,設(shè)備已經(jīng)啟動(dòng)并搜索了皇堡,這是設(shè)備缺少身份識別系統(tǒng)造成的。為此有產(chǎn)品推出了聲紋識別系統(tǒng)以保障支付安全問題,至于聲紋驗(yàn)證的可靠性則是另外一個(gè)問題。

△ 漢堡王的視頻廣告

隱私方面也是如此,相比起屏幕,公共場合的輸入和輸出對話更容易被聽到。敏感的金融、醫(yī)療和私人信息風(fēng)險(xiǎn)更大。

場景分析

總體來說,語音交互至少需要滿足噪音低和私密兩條要求。在眾多的場景中,車內(nèi)和家里是滿足要求的,加上手機(jī)上的移動(dòng)場景,共3大場景。Mary Meeker在2016年的報(bào)告也指出,美國語音使用的主要場景是家里(43%),車上(30%),路上(19%),工作僅占3%。

 

三. 語音交互發(fā)展難點(diǎn)

語音交互系統(tǒng)發(fā)展的歷史并不短,早在1952年,貝爾實(shí)驗(yàn)室就開發(fā)了能夠識別阿拉伯?dāng)?shù)字的系統(tǒng)Audrey。1962年,IBM發(fā)明了第一臺可以用語音進(jìn)行簡單數(shù)學(xué)計(jì)算的機(jī)器Shoebox。

△ IBM的Shoebox系統(tǒng)

在發(fā)展了半個(gè)多世紀(jì)后,語音交互仍沒有達(dá)到成熟應(yīng)用的水平,遇到的困難貫穿開發(fā)到使用流程。

一套完整的語音交互系統(tǒng)有三個(gè)典型模塊,語音識別(Automatic Speech Recognition,ASR)將聲音轉(zhuǎn)化成文字,自然語言處理過程(Natural Language Processing,NLP)將文字的含義解讀出來,并給出反饋,最后通過語音合成(Text to Speech,TTS),將輸出信息轉(zhuǎn)化成聲音。

 

△ 典型的語音交互系統(tǒng)模塊

 

遠(yuǎn)場識別難題

第一個(gè)難題是獲取語音的問題。語音質(zhì)量高的前提下,才能有較好的語音識別結(jié)果。有些公司宣稱自己的語音識別率達(dá)到了95%甚至99%,但其前提條件往往是聲源距離很近、環(huán)境特別安靜、說話人的普通話特別標(biāo)準(zhǔn),而非日常的應(yīng)用場景。

獲取用戶語音,根據(jù)距離分為近場識別和遠(yuǎn)場識別兩種情況,后者難度更大。

手機(jī)上的語音交互是典型的近場,距離聲源近,語音信號的質(zhì)量較高。另一方面,采集語音的交互相對簡單,有觸摸屏輔助,用戶通過點(diǎn)擊開始和結(jié)束進(jìn)行信號采集,保證可以錄到用戶說的話。

遠(yuǎn)場語音交互以智能音箱為代表,聲源遠(yuǎn),不知道聲源具體位置,環(huán)境中存在噪聲、混響和反射。單麥克風(fēng)無法滿足要求,需要麥克風(fēng)陣列支持。用戶可能站在任意方位,被語音喚醒后,需要定位到聲源位置,向該方向定向識音,增強(qiáng)語音并降低其他區(qū)域和環(huán)境的噪聲。

 

△ 遠(yuǎn)場識別示意圖(來源:雷鋒網(wǎng))

 

語音識別正確率

實(shí)際工作中,常用的指標(biāo)是識別詞錯(cuò)誤率(Word Error Rate)。微軟語音和對話研究團(tuán)隊(duì)負(fù)責(zé)人黃學(xué)東最近宣布微軟語音識別系統(tǒng)錯(cuò)誤率由5.9%進(jìn)一步降低到5.1%,可與專業(yè)速記員比肩。進(jìn)步來自于兩方面,一是技術(shù),包括隱馬爾可夫模型、機(jī)器學(xué)習(xí)和各種信號處理方法,另一方面是龐大的計(jì)算資源和訓(xùn)練數(shù)據(jù)。

語義識別

如果你和語音助手進(jìn)行過對話,會(huì)發(fā)現(xiàn)其語義理解還停留在固定模式識別的套路上,根據(jù)用戶話中特定的詞做出反應(yīng),不一定能給出正確的回答。

約翰·希爾勒提出過「中文房間」的思想實(shí)驗(yàn),一個(gè)不懂中文,會(huì)說英語的人在一個(gè)封閉房間中,房間里有一本英文手冊告知如何處理相應(yīng)的中文信息。用中文寫的問題從窗戶遞進(jìn)房間里,這個(gè)人對照手冊進(jìn)行查找,將對應(yīng)的中文解答寫在紙上并遞出去。房間外的人可能會(huì)覺得這個(gè)人很懂中文,實(shí)際他一竅不通。訓(xùn)練機(jī)器來理解語義類似于這個(gè)過程。通過訓(xùn)練,我們讓機(jī)器的反應(yīng)接近于能夠理解,但無法像人類一樣真正理解語言。

 

語言是人和人之間交流的工具,某種程度上適合人的認(rèn)知系統(tǒng),如何期待機(jī)器更好的理解我們?

目前來講,遇到的問題至少有分詞、歧義和未知語言處理。中文不像英文單詞有空格分開,而且歧義性高,對AI有更高的要求。例如「南京市長江大橋」就可以分成「南京市/長江大橋」和「南京市長/江大橋」兩種,「雞不吃了」有多種含義。和Siri說「打開飽了么外賣」,在它沒有學(xué)過「飽了么」這個(gè)單詞的情況下,它將如何處理?



多輪對話問題

我們覺得語音助手很蠢,有時(shí)是因?yàn)樗`反了人類對話的原則。人類對話看似簡單,但會(huì)根據(jù)對方的背景和自己掌握的信息,調(diào)整對話內(nèi)容,上下文之間也會(huì)有呼應(yīng)關(guān)系。但是,現(xiàn)有的很多產(chǎn)品,其對話缺少關(guān)聯(lián)性。語音助手不理解上下文背景,只能進(jìn)行單輪對話,看似進(jìn)行的多輪對話其實(shí)也只是多個(gè)單輪對話的組合。

「愚蠢」帶來的一是不自然,二是增加任務(wù)難度。比如當(dāng)你問語音助手「明天的天氣是什么?」它說下雨,再接著問「后天呢?」這時(shí)它并不明白提問的是后天的天氣,只能再完整的問一次「后天的天氣是什么?」
 

在下面這個(gè)對話里,小冰一會(huì)兒說陰陽師是游戲,一會(huì)兒是電影,并沒有對話的記憶。

△ 小冰沒有對話的記憶

 

四. 語音交互設(shè)計(jì)規(guī)范

由于語言尤其口語的形式不固定,變化很大,VUI的交互設(shè)計(jì)和GUI截然不同,更加細(xì)致繁瑣。亞馬遜已經(jīng)給開發(fā)者提供了成熟的交互設(shè)計(jì)規(guī)范。

語音交互設(shè)計(jì)至少可分為幾步,首先建立功能目的,其次撰寫腳本,即用戶和系統(tǒng)如何對話,第三步是制定流程、用戶使用路徑等,還需要定義技能的結(jié)構(gòu),包括完成一個(gè)功能需要哪些參數(shù)、用語有哪些變化。例如對于同一個(gè)功能,用戶可以說「天氣怎么樣」也可以問「外面下雨嗎」。

遠(yuǎn)場語音交互產(chǎn)品的冷啟動(dòng)

遠(yuǎn)場語音交互產(chǎn)品存在冷啟動(dòng)周期,只有積累了一定數(shù)據(jù)才可以更好提升產(chǎn)品體驗(yàn),但如何提高銷量、積累數(shù)據(jù)是產(chǎn)品啟動(dòng)時(shí)需要思考的問題。如果希望語音交互產(chǎn)品可以成為平臺,千萬量級是基本門檻,如果Echo在今年的銷量可以達(dá)到預(yù)計(jì)的兩千萬臺,基本上有了足夠數(shù)據(jù),有成為平臺的希望。國內(nèi)一些模仿者使用節(jié)日促銷的模式,例如雙十一天貓精靈99元的售價(jià),賣出了100萬臺,希望通過這種方式進(jìn)行數(shù)據(jù)的初步積累。

缺乏持續(xù)使用動(dòng)力和核心場景

新鮮勁過去后,很多人會(huì)對語音交互失去興趣,觸控仍然是主要的交互方式。Creative Strategies的數(shù)據(jù)發(fā)現(xiàn),97%的人在兩周時(shí)間內(nèi)會(huì)對Alexa的新功能失去興趣。Voice Lab的數(shù)據(jù)發(fā)現(xiàn),62%的安卓用戶很少或者偶爾使用語音助手,這一比例在iOS用戶上是70%。目前,語音交互缺乏只有其才能實(shí)現(xiàn)的核心功能,即使亞馬遜的Echo,它最多的用途仍然是聽歌,缺少核心競爭力和不可替代性。


 

五. 問題討論

語音交互是否會(huì)成為主流交互方式

筆者的意見是,就像觸控沒有取代鼠標(biāo)鍵盤,語音交互不太可能成為主流的交互方式。交互界面本來就是多模態(tài)的,語音交互將豐富現(xiàn)有的交互形式而不會(huì)取代其他。如前文所述,語音交互不能解決所有問題,只是在特定的場景可以發(fā)揮作用。

伴隨語音的多交互通道是不錯(cuò)的選擇,例如語音和觸控結(jié)合可以提高準(zhǔn)確度,語音和視覺結(jié)合,實(shí)現(xiàn)語音輸入加視覺反饋,或者加上手勢等。

是否需要追求語音交互的純潔性

Echo團(tuán)隊(duì)認(rèn)為,語音是最自然的交互方式,因此堅(jiān)持設(shè)計(jì)語音交互,但語音輸入和視覺輸出的模型已被證明其成功性,我們在手機(jī)上使用的語音交互模型就是如此。新品Echo Show也裝上了屏幕,可以顯示視覺信息了。所以是否有必要堅(jiān)持純粹的語音交互模型?答案似乎已經(jīng)很明顯。新問題是,如果Echo加上了屏幕,用戶會(huì)認(rèn)為它是音箱還是平板?

△ 加上屏幕的Echo Show

 

六. 語音交互的定位

本質(zhì)上,語音交互允許人通過語音的方式完成任務(wù),能通過語音完成的,觸控也可以,Siri可以做到的,Echo也可以,做不到的大家都做不到。所以語音交互能夠完成什么獨(dú)有的任務(wù)以體現(xiàn)它的價(jià)值呢?

VUI vs. CUI

語音設(shè)計(jì)師Cheryl Platz在她的Medium上反復(fù)提及一個(gè)問題,VUI還是Conversational UI?

語音交互界面是基于單獨(dú)的任務(wù),它的模式是簡單的「下命令——完成任務(wù)」,然而這不是自然的對話,我們需要思考如何下命令,距離對話太遠(yuǎn)了。如果要朝著CUI的目標(biāo),語音交互必須更加智能和流暢,允許通過真正的對話完成任務(wù),像和真人說話一樣。

隱私問題

如果語音助手要更好用、更智能,就需要不斷收集用戶的信息。所以我們是否需要語音助手改變自己的反應(yīng)?如果語音助手目的就是商業(yè)的,那么我們是否信任它并提供信息,從而讓它更了解我的喜好?

另一方面,語音助手是否安全?通過喚醒詞喚醒的語音交互產(chǎn)品會(huì)保持待機(jī),從環(huán)境中獲取聲音,這種機(jī)制可能被利用。在一則新聞中,Echo被破解并成為了一個(gè)24小時(shí)竊聽器。還有連接方式,德國禁止銷售的一款兒童語音玩具「My Friend Cayla」,其藍(lán)牙連接就被證明是不安全的,兒童與玩具對話的語音可能被第三方獲取。

△ 兒童語音玩具M(jìn)y Friend Cayla

語音交互界面的測試方式

和普通產(chǎn)品的研究方法共通,可用性測試、訪談等方法依然適用于研究語音交互系統(tǒng)。測試VUI時(shí)可以特別注意一些地方,例如用戶的反應(yīng),成功率,停頓或者失敗等等。有一些特定指標(biāo)可以用于評估,例如速度準(zhǔn)確度、用戶付出的認(rèn)知努力、清晰易懂度、系統(tǒng)友好程度和聲音質(zhì)量等。

下面介紹一個(gè)有趣的語音交互界面測試方法——Woz法。由于語音交互系統(tǒng)成本較高,在系統(tǒng)開發(fā)前,通過Woz(Wizard of Oz)的原型測試發(fā)現(xiàn)問題,成本很低。由一名研究人員扮演Wizard,一名普通研究人員協(xié)助,用戶操作后,由Wizard在暗處手動(dòng)播放反饋。
 

△ 車內(nèi)Woz測試(來源:《Designing Voice User Interfaces》)

語音交互仍需要發(fā)展,技術(shù)成熟需要時(shí)間。但它的出現(xiàn)意味著我們可以用更多方式操作設(shè)備、傳遞信息,我們離理想的交互界面更近了一步。以上對語音交互做了簡單的總結(jié),有疏漏和想法不成熟之處,歡迎交流指正。




 

預(yù)約申請免費(fèi)試聽課

填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖