久久97超人人超人人超碰国产 ,欧美欧美午夜AⅤ在线观看

網(wǎng)易設(shè)計(jì)師總結(jié)--超全面的語(yǔ)音交互知識(shí)科普

時(shí)間：2018-01-25來(lái)源：lb577.com點(diǎn)擊量：次作者：fubowen

時(shí)間：2018-01-25點(diǎn)擊量：次作者：fubowen

為什么會(huì)有語(yǔ)音交互？它適用于什么場(chǎng)景？不適用于哪些？文章為你解讀。

一. 什么是語(yǔ)音交互

在沒(méi)有機(jī)器之前，人類最早的交互方式就是語(yǔ)言和動(dòng)作。如今，在自然交互方式的趨勢(shì)下，我們又回到了語(yǔ)言這種交互形式上。

原始的交互方式，就是人與人用語(yǔ)言、動(dòng)作、眼神交互，人與物用動(dòng)作交互。機(jī)器剛出現(xiàn)的時(shí)候，并沒(méi)有人機(jī)交互的理念，機(jī)器很難操作，需要人去學(xué)習(xí)和適應(yīng)。肖爾斯的「QWERTY」鍵盤會(huì)流傳開來(lái)就是因?yàn)檫@種字母的排列設(shè)計(jì)可以降低打字速度，避免快速輸入造成按鍵連桿的互相干涉。

二戰(zhàn)期間的研究促進(jìn)了人因工程的發(fā)展，機(jī)器適應(yīng)人類、提高人的效率的理念得到發(fā)展。在計(jì)算機(jī)領(lǐng)域，從命令行界面（CLI）進(jìn)入到圖形用戶界面（GUI）是一大突破，隨后發(fā)展到目前的主流操作方式觸控，使用手指在屏幕上滑動(dòng)點(diǎn)按。語(yǔ)音交互界面（Voice User Interface，VUI）、手勢(shì)、動(dòng)作、表情交互，甚至腦機(jī)接口，都屬于自然用戶界面（NUI）。

從載體上分，語(yǔ)音交互以手機(jī)或電腦為載體，或以其他硬件為載體。除了這些，在客服、教育和醫(yī)療等行業(yè)也都有應(yīng)用，如客服語(yǔ)音質(zhì)檢、口語(yǔ)測(cè)評(píng)等。

△ 語(yǔ)音交互界面的形式

二. 如何評(píng)價(jià)語(yǔ)音交互

VUI的效率高還是低？

高效的交互方式就是好的交互方式。人機(jī)交互在于提高人的使用表現(xiàn)，從速度、準(zhǔn)確性、注意負(fù)荷三個(gè)維度衡量。讓用戶速度越快、越準(zhǔn)確，并且占用最少注意負(fù)荷的就是好的交互。我們來(lái)看幾種情況。

輸入文本：效率極高。人說(shuō)話的速度比打字快，且不需要分心看屏幕，考慮到打字輸入也有錯(cuò)誤，語(yǔ)音交互在輸入文本表現(xiàn)不錯(cuò)。因此很多產(chǎn)品都會(huì)在文本輸入處加上語(yǔ)音入口。

布置任務(wù)：如果我們想打快車回家，用語(yǔ)音助手還是圖形界面的打車APP更快？由于路徑短，語(yǔ)音助手的理論速度更快，喚醒Siri并說(shuō)句話，不需要打開APP再點(diǎn)選。在現(xiàn)有狀況下，輸入任務(wù)容易出錯(cuò)。如果命令語(yǔ)言出現(xiàn)偏差，語(yǔ)音助手聽不懂你的意思，就會(huì)導(dǎo)致任務(wù)失敗。我們需要思考該怎么布置任務(wù)，是說(shuō)「我要打車回家」還是「打開XX并打車回家」？如果語(yǔ)音助手三次都聽不懂命令，你還會(huì)繼續(xù)嘗試嗎？放棄語(yǔ)音布置任務(wù)，只要打開APP，找到熟悉的入口點(diǎn)擊操作就完成了。

輸出：相比即時(shí)的圖形反饋，語(yǔ)音是一種不太合格的輸出方式，它過(guò)于緩慢、效率低下。由于聽覺(jué)是線性的，我們只能聽完一句話再聽下一句，而不能像視覺(jué)一樣瞬間完成圖片加工，也不能在文本間掃描跳過(guò)，電話語(yǔ)音服務(wù)系統(tǒng)就是這種浪費(fèi)時(shí)間的方式。另外，持續(xù)聽語(yǔ)音還會(huì)消耗大量注意和記憶資源。如果客服念完卻沒(méi)有聽到想要的內(nèi)容，重聽按0是另一場(chǎng)噩夢(mèng)。另一方面，我們大部分的信息來(lái)自于視覺(jué)，但語(yǔ)音方式不能輸出視覺(jué)信息。

適合雙手被占用的場(chǎng)合

語(yǔ)音交互適合在哪里使用？雙手被占用時(shí)，如駕駛、烹飪、游戲等情況。比如，開車時(shí)眼睛需要看路，雙手握著方向盤，而且車內(nèi)環(huán)境既安靜又私密，這種情況下就適合使用語(yǔ)音交互。另外，在輸出層面上，如果視覺(jué)通道被占用，聽覺(jué)通道更適合接收緊急和重要的通知。

門檻極低

語(yǔ)音交互的支持者認(rèn)為，語(yǔ)音是最自然的交互方式。人人都會(huì)說(shuō)話，門檻極低，尤其對(duì)于輸出困難人群（如視力障礙人群），他們完全可以無(wú)障礙的使用語(yǔ)音交互的形式。但是另一方面，習(xí)慣觸控的人群不一定愿意轉(zhuǎn)向語(yǔ)音，對(duì)新技術(shù)有畏難情緒的人群也可能不愿意嘗試語(yǔ)音交互這種「新」的技術(shù)。

語(yǔ)音可以傳遞情感，但人還不適應(yīng)和機(jī)器交談。

語(yǔ)音由于有聲調(diào)和節(jié)奏，相比文字，更能傳遞情感。問(wèn)題在于我們不習(xí)慣和機(jī)器人或者手機(jī)對(duì)話。據(jù)統(tǒng)計(jì)，在公共場(chǎng)合使用Siri的人只有3%。我們默認(rèn)語(yǔ)言是人和人交流的方式，或是和貓、狗這種我們認(rèn)為有人性的動(dòng)物交流的方式。當(dāng)人與物進(jìn)行交流時(shí)，更多會(huì)采用動(dòng)作交互。因此人和手機(jī)說(shuō)話時(shí)會(huì)有很奇怪的感覺(jué)，尤其對(duì)于東方人來(lái)說(shuō)，心理障礙可能會(huì)更大。

為了減少用戶的壓力，拉近心理距離，很多智能語(yǔ)音助手會(huì)設(shè)定自己的「人物形象」。例如Siri高冷又忠誠(chéng)，微軟小冰可愛(ài)又貧嘴。另外，語(yǔ)音助手大多是女性聲音，也是因?yàn)榕缘穆曇袈犉饋?lái)更加和善包容。在操作過(guò)程中出現(xiàn)問(wèn)題，如果響起了男性的聲音，容易給使用者產(chǎn)生被責(zé)備、被批評(píng)的感覺(jué)。

不過(guò)，語(yǔ)音助手也不能太像真正的人?？植拦壤碚撜J(rèn)為，對(duì)于和人越來(lái)越像的東西，我們的好感會(huì)上升，但我們厭惡很像人而不是人的東西，例如僵尸。從恐怖谷的理論來(lái)看，我們可能會(huì)害怕逼真的語(yǔ)音助手。

△ 恐怖谷

不適合在公開場(chǎng)合使用

語(yǔ)音交互不適合在公開場(chǎng)合使用，尤其是圖書館、辦公室這類安靜的場(chǎng)合。

身份識(shí)別問(wèn)題。在漢堡王的一則視頻廣告里，售貨員最后湊近屏幕，說(shuō)“OK google, what’s the whoppers？”?！窸K google」是安卓手機(jī)和Google Home的喚醒詞，用戶會(huì)發(fā)現(xiàn)在自己沒(méi)有下達(dá)命令的情況下，設(shè)備已經(jīng)啟動(dòng)并搜索了皇堡，這是設(shè)備缺少身份識(shí)別系統(tǒng)造成的。為此有產(chǎn)品推出了聲紋識(shí)別系統(tǒng)以保障支付安全問(wèn)題，至于聲紋驗(yàn)證的可靠性則是另外一個(gè)問(wèn)題。

△ 漢堡王的視頻廣告

隱私方面也是如此，相比起屏幕，公共場(chǎng)合的輸入和輸出對(duì)話更容易被聽到。敏感的金融、醫(yī)療和私人信息風(fēng)險(xiǎn)更大。

場(chǎng)景分析

總體來(lái)說(shuō)，語(yǔ)音交互至少需要滿足噪音低和私密兩條要求。在眾多的場(chǎng)景中，車內(nèi)和家里是滿足要求的，加上手機(jī)上的移動(dòng)場(chǎng)景，共3大場(chǎng)景。Mary Meeker在2016年的報(bào)告也指出，美國(guó)語(yǔ)音使用的主要場(chǎng)景是家里（43%），車上（30%），路上（19%），工作僅占3%。

三. 語(yǔ)音交互發(fā)展難點(diǎn)

語(yǔ)音交互系統(tǒng)發(fā)展的歷史并不短，早在1952年，貝爾實(shí)驗(yàn)室就開發(fā)了能夠識(shí)別阿拉伯?dāng)?shù)字的系統(tǒng)Audrey。1962年，IBM發(fā)明了第一臺(tái)可以用語(yǔ)音進(jìn)行簡(jiǎn)單數(shù)學(xué)計(jì)算的機(jī)器Shoebox。

△ IBM的Shoebox系統(tǒng)

在發(fā)展了半個(gè)多世紀(jì)后，語(yǔ)音交互仍沒(méi)有達(dá)到成熟應(yīng)用的水平，遇到的困難貫穿開發(fā)到使用流程。

一套完整的語(yǔ)音交互系統(tǒng)有三個(gè)典型模塊，語(yǔ)音識(shí)別（Automatic Speech Recognition，ASR）將聲音轉(zhuǎn)化成文字，自然語(yǔ)言處理過(guò)程（Natural Language Processing，NLP）將文字的含義解讀出來(lái)，并給出反饋，最后通過(guò)語(yǔ)音合成（Text to Speech，TTS），將輸出信息轉(zhuǎn)化成聲音。

△ 典型的語(yǔ)音交互系統(tǒng)模塊

遠(yuǎn)場(chǎng)識(shí)別難題

第一個(gè)難題是獲取語(yǔ)音的問(wèn)題。語(yǔ)音質(zhì)量高的前提下，才能有較好的語(yǔ)音識(shí)別結(jié)果。有些公司宣稱自己的語(yǔ)音識(shí)別率達(dá)到了95%甚至99%，但其前提條件往往是聲源距離很近、環(huán)境特別安靜、說(shuō)話人的普通話特別標(biāo)準(zhǔn)，而非日常的應(yīng)用場(chǎng)景。

獲取用戶語(yǔ)音，根據(jù)距離分為近場(chǎng)識(shí)別和遠(yuǎn)場(chǎng)識(shí)別兩種情況，后者難度更大。

手機(jī)上的語(yǔ)音交互是典型的近場(chǎng)，距離聲源近，語(yǔ)音信號(hào)的質(zhì)量較高。另一方面，采集語(yǔ)音的交互相對(duì)簡(jiǎn)單，有觸摸屏輔助，用戶通過(guò)點(diǎn)擊開始和結(jié)束進(jìn)行信號(hào)采集，保證可以錄到用戶說(shuō)的話。

遠(yuǎn)場(chǎng)語(yǔ)音交互以智能音箱為代表，聲源遠(yuǎn)，不知道聲源具體位置，環(huán)境中存在噪聲、混響和反射。單麥克風(fēng)無(wú)法滿足要求，需要麥克風(fēng)陣列支持。用戶可能站在任意方位，被語(yǔ)音喚醒后，需要定位到聲源位置，向該方向定向識(shí)音，增強(qiáng)語(yǔ)音并降低其他區(qū)域和環(huán)境的噪聲。

△ 遠(yuǎn)場(chǎng)識(shí)別示意圖（來(lái)源：雷鋒網(wǎng)）

語(yǔ)音識(shí)別正確率

實(shí)際工作中，常用的指標(biāo)是識(shí)別詞錯(cuò)誤率（Word Error Rate）。微軟語(yǔ)音和對(duì)話研究團(tuán)隊(duì)負(fù)責(zé)人黃學(xué)東最近宣布微軟語(yǔ)音識(shí)別系統(tǒng)錯(cuò)誤率由5.9%進(jìn)一步降低到5.1%，可與專業(yè)速記員比肩。進(jìn)步來(lái)自于兩方面，一是技術(shù)，包括隱馬爾可夫模型、機(jī)器學(xué)習(xí)和各種信號(hào)處理方法，另一方面是龐大的計(jì)算資源和訓(xùn)練數(shù)據(jù)。

語(yǔ)義識(shí)別

如果你和語(yǔ)音助手進(jìn)行過(guò)對(duì)話，會(huì)發(fā)現(xiàn)其語(yǔ)義理解還停留在固定模式識(shí)別的套路上，根據(jù)用戶話中特定的詞做出反應(yīng)，不一定能給出正確的回答。

約翰·希爾勒提出過(guò)「中文房間」的思想實(shí)驗(yàn)，一個(gè)不懂中文，會(huì)說(shuō)英語(yǔ)的人在一個(gè)封閉房間中，房間里有一本英文手冊(cè)告知如何處理相應(yīng)的中文信息。用中文寫的問(wèn)題從窗戶遞進(jìn)房間里，這個(gè)人對(duì)照手冊(cè)進(jìn)行查找，將對(duì)應(yīng)的中文解答寫在紙上并遞出去。房間外的人可能會(huì)覺(jué)得這個(gè)人很懂中文，實(shí)際他一竅不通。訓(xùn)練機(jī)器來(lái)理解語(yǔ)義類似于這個(gè)過(guò)程。通過(guò)訓(xùn)練，我們讓機(jī)器的反應(yīng)接近于能夠理解，但無(wú)法像人類一樣真正理解語(yǔ)言。

語(yǔ)言是人和人之間交流的工具，某種程度上適合人的認(rèn)知系統(tǒng)，如何期待機(jī)器更好的理解我們？

目前來(lái)講，遇到的問(wèn)題至少有分詞、歧義和未知語(yǔ)言處理。中文不像英文單詞有空格分開，而且歧義性高，對(duì)AI有更高的要求。例如「南京市長(zhǎng)江大橋」就可以分成「南京市/長(zhǎng)江大橋」和「南京市長(zhǎng)/江大橋」兩種，「雞不吃了」有多種含義。和Siri說(shuō)「打開飽了么外賣」，在它沒(méi)有學(xué)過(guò)「飽了么」這個(gè)單詞的情況下，它將如何處理？

多輪對(duì)話問(wèn)題

我們覺(jué)得語(yǔ)音助手很蠢，有時(shí)是因?yàn)樗`反了人類對(duì)話的原則。人類對(duì)話看似簡(jiǎn)單，但會(huì)根據(jù)對(duì)方的背景和自己掌握的信息，調(diào)整對(duì)話內(nèi)容，上下文之間也會(huì)有呼應(yīng)關(guān)系。但是，現(xiàn)有的很多產(chǎn)品，其對(duì)話缺少關(guān)聯(lián)性。語(yǔ)音助手不理解上下文背景，只能進(jìn)行單輪對(duì)話，看似進(jìn)行的多輪對(duì)話其實(shí)也只是多個(gè)單輪對(duì)話的組合。

「愚蠢」帶來(lái)的一是不自然，二是增加任務(wù)難度。比如當(dāng)你問(wèn)語(yǔ)音助手「明天的天氣是什么？」它說(shuō)下雨，再接著問(wèn)「后天呢？」這時(shí)它并不明白提問(wèn)的是后天的天氣，只能再完整的問(wèn)一次「后天的天氣是什么？」

在下面這個(gè)對(duì)話里，小冰一會(huì)兒說(shuō)陰陽(yáng)師是游戲，一會(huì)兒是電影，并沒(méi)有對(duì)話的記憶。

△ 小冰沒(méi)有對(duì)話的記憶

四. 語(yǔ)音交互設(shè)計(jì)規(guī)范

由于語(yǔ)言尤其口語(yǔ)的形式不固定，變化很大，VUI的交互設(shè)計(jì)和GUI截然不同，更加細(xì)致繁瑣。亞馬遜已經(jīng)給開發(fā)者提供了成熟的交互設(shè)計(jì)規(guī)范。

語(yǔ)音交互設(shè)計(jì)至少可分為幾步，首先建立功能目的，其次撰寫腳本，即用戶和系統(tǒng)如何對(duì)話，第三步是制定流程、用戶使用路徑等，還需要定義技能的結(jié)構(gòu)，包括完成一個(gè)功能需要哪些參數(shù)、用語(yǔ)有哪些變化。例如對(duì)于同一個(gè)功能，用戶可以說(shuō)「天氣怎么樣」也可以問(wèn)「外面下雨嗎」。

遠(yuǎn)場(chǎng)語(yǔ)音交互產(chǎn)品的冷啟動(dòng)

遠(yuǎn)場(chǎng)語(yǔ)音交互產(chǎn)品存在冷啟動(dòng)周期，只有積累了一定數(shù)據(jù)才可以更好提升產(chǎn)品體驗(yàn)，但如何提高銷量、積累數(shù)據(jù)是產(chǎn)品啟動(dòng)時(shí)需要思考的問(wèn)題。如果希望語(yǔ)音交互產(chǎn)品可以成為平臺(tái)，千萬(wàn)量級(jí)是基本門檻，如果Echo在今年的銷量可以達(dá)到預(yù)計(jì)的兩千萬(wàn)臺(tái)，基本上有了足夠數(shù)據(jù)，有成為平臺(tái)的希望。國(guó)內(nèi)一些模仿者使用節(jié)日促銷的模式，例如雙十一天貓精靈99元的售價(jià)，賣出了100萬(wàn)臺(tái)，希望通過(guò)這種方式進(jìn)行數(shù)據(jù)的初步積累。

缺乏持續(xù)使用動(dòng)力和核心場(chǎng)景

新鮮勁過(guò)去后，很多人會(huì)對(duì)語(yǔ)音交互失去興趣，觸控仍然是主要的交互方式。Creative Strategies的數(shù)據(jù)發(fā)現(xiàn)，97%的人在兩周時(shí)間內(nèi)會(huì)對(duì)Alexa的新功能失去興趣。Voice Lab的數(shù)據(jù)發(fā)現(xiàn)，62%的安卓用戶很少或者偶爾使用語(yǔ)音助手，這一比例在iOS用戶上是70%。目前，語(yǔ)音交互缺乏只有其才能實(shí)現(xiàn)的核心功能，即使亞馬遜的Echo，它最多的用途仍然是聽歌，缺少核心競(jìng)爭(zhēng)力和不可替代性。

五. 問(wèn)題討論

語(yǔ)音交互是否會(huì)成為主流交互方式

筆者的意見是，就像觸控沒(méi)有取代鼠標(biāo)鍵盤，語(yǔ)音交互不太可能成為主流的交互方式。交互界面本來(lái)就是多模態(tài)的，語(yǔ)音交互將豐富現(xiàn)有的交互形式而不會(huì)取代其他。如前文所述，語(yǔ)音交互不能解決所有問(wèn)題，只是在特定的場(chǎng)景可以發(fā)揮作用。

伴隨語(yǔ)音的多交互通道是不錯(cuò)的選擇，例如語(yǔ)音和觸控結(jié)合可以提高準(zhǔn)確度，語(yǔ)音和視覺(jué)結(jié)合，實(shí)現(xiàn)語(yǔ)音輸入加視覺(jué)反饋，或者加上手勢(shì)等。

是否需要追求語(yǔ)音交互的純潔性

Echo團(tuán)隊(duì)認(rèn)為，語(yǔ)音是最自然的交互方式，因此堅(jiān)持設(shè)計(jì)語(yǔ)音交互，但語(yǔ)音輸入和視覺(jué)輸出的模型已被證明其成功性，我們?cè)谑謾C(jī)上使用的語(yǔ)音交互模型就是如此。新品Echo Show也裝上了屏幕，可以顯示視覺(jué)信息了。所以是否有必要堅(jiān)持純粹的語(yǔ)音交互模型？答案似乎已經(jīng)很明顯。新問(wèn)題是，如果Echo加上了屏幕，用戶會(huì)認(rèn)為它是音箱還是平板？

△ 加上屏幕的Echo Show

六. 語(yǔ)音交互的定位

本質(zhì)上，語(yǔ)音交互允許人通過(guò)語(yǔ)音的方式完成任務(wù)，能通過(guò)語(yǔ)音完成的，觸控也可以，Siri可以做到的，Echo也可以，做不到的大家都做不到。所以語(yǔ)音交互能夠完成什么獨(dú)有的任務(wù)以體現(xiàn)它的價(jià)值呢？

VUI vs. CUI

語(yǔ)音設(shè)計(jì)師Cheryl Platz在她的Medium上反復(fù)提及一個(gè)問(wèn)題，VUI還是Conversational UI？

語(yǔ)音交互界面是基于單獨(dú)的任務(wù)，它的模式是簡(jiǎn)單的「下命令——完成任務(wù)」，然而這不是自然的對(duì)話，我們需要思考如何下命令，距離對(duì)話太遠(yuǎn)了。如果要朝著CUI的目標(biāo)，語(yǔ)音交互必須更加智能和流暢，允許通過(guò)真正的對(duì)話完成任務(wù)，像和真人說(shuō)話一樣。

隱私問(wèn)題

如果語(yǔ)音助手要更好用、更智能，就需要不斷收集用戶的信息。所以我們是否需要語(yǔ)音助手改變自己的反應(yīng)？如果語(yǔ)音助手目的就是商業(yè)的，那么我們是否信任它并提供信息，從而讓它更了解我的喜好？

另一方面，語(yǔ)音助手是否安全？通過(guò)喚醒詞喚醒的語(yǔ)音交互產(chǎn)品會(huì)保持待機(jī)，從環(huán)境中獲取聲音，這種機(jī)制可能被利用。在一則新聞中，Echo被破解并成為了一個(gè)24小時(shí)竊聽器。還有連接方式，德國(guó)禁止銷售的一款兒童語(yǔ)音玩具「My Friend Cayla」，其藍(lán)牙連接就被證明是不安全的，兒童與玩具對(duì)話的語(yǔ)音可能被第三方獲取。

△ 兒童語(yǔ)音玩具M(jìn)y Friend Cayla

語(yǔ)音交互界面的測(cè)試方式

和普通產(chǎn)品的研究方法共通，可用性測(cè)試、訪談等方法依然適用于研究語(yǔ)音交互系統(tǒng)。測(cè)試VUI時(shí)可以特別注意一些地方，例如用戶的反應(yīng)，成功率，停頓或者失敗等等。有一些特定指標(biāo)可以用于評(píng)估，例如速度準(zhǔn)確度、用戶付出的認(rèn)知努力、清晰易懂度、系統(tǒng)友好程度和聲音質(zhì)量等。

下面介紹一個(gè)有趣的語(yǔ)音交互界面測(cè)試方法——Woz法。由于語(yǔ)音交互系統(tǒng)成本較高，在系統(tǒng)開發(fā)前，通過(guò)Woz（Wizard of Oz）的原型測(cè)試發(fā)現(xiàn)問(wèn)題，成本很低。由一名研究人員扮演Wizard，一名普通研究人員協(xié)助，用戶操作后，由Wizard在暗處手動(dòng)播放反饋。