亚洲免费网站观看视频,一出一进一爽一粗一大视频免费的

旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習(xí)/?A計劃

全國統(tǒng)一咨詢熱線：010-5367 2995

就業(yè)保障

學(xué)員成果

關(guān)于我們

全國校區(qū)

首頁 > 行業(yè)資訊 > 超詳細的語音交互知識科普

超詳細的語音交互知識科普

時間：2018-01-30來源：lb577.com點擊量：次作者：馬晨皓

時間：2018-01-30點擊量：次作者：馬晨皓

一. 什么是語音交互

在沒有機器之前，人類最早的交互方式就是語言和動作。如今，在自然交互方式的趨勢下，我們又回到了語言這種交互形式上。

原始的交互方式，就是人與人用語言、動作、眼神交互，人與物用動作交互。機器剛出現(xiàn)的時候，并沒有人機交互的理念，機器很難操作，需要人去學(xué)習(xí)和適應(yīng)。肖爾斯的「QWERTY」鍵盤會流傳開來就是因為這種字母的排列設(shè)計可以降低打字速度，避免快速輸入造成按鍵連桿的互相干涉。

二戰(zhàn)期間的研究促進了人因工程的發(fā)展，機器適應(yīng)人類、提高人的效率的理念得到發(fā)展。在計算機領(lǐng)域，從命令行界面（CLI）進入到圖形用戶界面（GUI）是一大突破，隨后發(fā)展到目前的主流操作方式觸控，使用手指在屏幕上滑動點按。語音交互界面（Voice User Interface，VUI）、手勢、動作、表情交互，甚至腦機接口，都屬于自然用戶界面（NUI）。

從載體上分，語音交互以手機或電腦為載體，或以其他硬件為載體。除了這些，在客服、教育和醫(yī)療等行業(yè)也都有應(yīng)用，如客服語音質(zhì)檢、口語測評等。

△ 語音交互界面的形式

二. 如何評價語音交互

VUI的效率高還是低？

高效的交互方式就是好的交互方式。人機交互在于提高人的使用表現(xiàn)，從速度、準確性、注意負荷三個維度衡量。讓用戶速度越快、越準確，并且占用最少注意負荷的就是好的交互。我們來看幾種情況。

輸入文本：效率極高。人說話的速度比打字快，且不需要分心看屏幕，考慮到打字輸入也有錯誤，語音交互在輸入文本表現(xiàn)不錯。因此很多產(chǎn)品都會在文本輸入處加上語音入口。

布置任務(wù)：如果我們想打快車回家，用語音助手還是圖形界面的打車APP更快？由于路徑短，語音助手的理論速度更快，喚醒Siri并說句話，不需要打開APP再點選。在現(xiàn)有狀況下，輸入任務(wù)容易出錯。如果命令語言出現(xiàn)偏差，語音助手聽不懂你的意思，就會導(dǎo)致任務(wù)失敗。我們需要思考該怎么布置任務(wù)，是說「我要打車回家」還是「打開XX并打車回家」？如果語音助手三次都聽不懂命令，你還會繼續(xù)嘗試嗎？放棄語音布置任務(wù)，只要打開APP，找到熟悉的入口點擊操作就完成了。

輸出：相比即時的圖形反饋，語音是一種不太合格的輸出方式，它過于緩慢、效率低下。由于聽覺是線性的，我們只能聽完一句話再聽下一句，而不能像視覺一樣瞬間完成圖片加工，也不能在文本間掃描跳過，電話語音服務(wù)系統(tǒng)就是這種浪費時間的方式。另外，持續(xù)聽語音還會消耗大量注意和記憶資源。如果客服念完卻沒有聽到想要的內(nèi)容，重聽按0是另一場噩夢。另一方面，我們大部分的信息來自于視覺，但語音方式不能輸出視覺信息。

適合雙手被占用的場合

語音交互適合在哪里使用？雙手被占用時，如駕駛、烹飪、游戲等情況。比如，開車時眼睛需要看路，雙手握著方向盤，而且車內(nèi)環(huán)境既安靜又私密，這種情況下就適合使用語音交互。另外，在輸出層面上，如果視覺通道被占用，聽覺通道更適合接收緊急和重要的通知。

門檻極低

語音交互的支持者認為，語音是最自然的交互方式。人人都會說話，門檻極低，尤其對于輸出困難人群（如視力障礙人群），他們完全可以無障礙的使用語音交互的形式。但是另一方面，習(xí)慣觸控的人群不一定愿意轉(zhuǎn)向語音，對新技術(shù)有畏難情緒的人群也可能不愿意嘗試語音交互這種「新」的技術(shù)。

語音可以傳遞情感，但人還不適應(yīng)和機器交談。

語音由于有聲調(diào)和節(jié)奏，相比文字，更能傳遞情感。問題在于我們不習(xí)慣和機器人或者手機對話。據(jù)統(tǒng)計，在公共場合使用Siri的人只有3%。我們默認語言是人和人交流的方式，或是和貓、狗這種我們認為有人性的動物交流的方式。當人與物進行交流時，更多會采用動作交互。因此人和手機說話時會有很奇怪的感覺，尤其對于東方人來說，心理障礙可能會更大。

為了減少用戶的壓力，拉近心理距離，很多智能語音助手會設(shè)定自己的「人物形象」。例如Siri高冷又忠誠，微軟小冰可愛又貧嘴。另外，語音助手大多是女性聲音，也是因為女性的聲音聽起來更加和善包容。在操作過程中出現(xiàn)問題，如果響起了男性的聲音，容易給使用者產(chǎn)生被責(zé)備、被批評的感覺。

不過，語音助手也不能太像真正的人?？植拦壤碚撜J為，對于和人越來越像的東西，我們的好感會上升，但我們厭惡很像人而不是人的東西，例如僵尸。從恐怖谷的理論來看，我們可能會害怕逼真的語音助手。

△ 恐怖谷

不適合在公開場合使用

語音交互不適合在公開場合使用，尤其是圖書館、辦公室這類安靜的場合。

身份識別問題。在漢堡王的一則視頻廣告里，售貨員最后湊近屏幕，說“OK google, what’s the whoppers？”?！窸K google」是安卓手機和Google Home的喚醒詞，用戶會發(fā)現(xiàn)在自己沒有下達命令的情況下，設(shè)備已經(jīng)啟動并搜索了皇堡，這是設(shè)備缺少身份識別系統(tǒng)造成的。為此有產(chǎn)品推出了聲紋識別系統(tǒng)以保障支付安全問題，至于聲紋驗證的可靠性則是另外一個問題。

△ 漢堡王的視頻廣告

隱私方面也是如此，相比起屏幕，公共場合的輸入和輸出對話更容易被聽到。敏感的金融、醫(yī)療和私人信息風(fēng)險更大。

場景分析

總體來說，語音交互至少需要滿足噪音低和私密兩條要求。在眾多的場景中，車內(nèi)和家里是滿足要求的，加上手機上的移動場景，共3大場景。Mary Meeker在2016年的報告也指出，美國語音使用的主要場景是家里（43%），車上（30%），路上（19%），工作僅占3%。

三. 語音交互發(fā)展難點

語音交互系統(tǒng)發(fā)展的歷史并不短，早在1952年，貝爾實驗室就開發(fā)了能夠識別阿拉伯數(shù)字的系統(tǒng)Audrey。1962年，IBM發(fā)明了第一臺可以用語音進行簡單數(shù)學(xué)計算的機器Shoebox。

△ IBM的Shoebox系統(tǒng)

在發(fā)展了半個多世紀后，語音交互仍沒有達到成熟應(yīng)用的水平，遇到的困難貫穿開發(fā)到使用流程。

一套完整的語音交互系統(tǒng)有三個典型模塊，語音識別（Automatic Speech Recognition，ASR）將聲音轉(zhuǎn)化成文字，自然語言處理過程（Natural Language Processing，NLP）將文字的含義解讀出來，并給出反饋，最后通過語音合成（Text to Speech，TTS），將輸出信息轉(zhuǎn)化成聲音。

△ 典型的語音交互系統(tǒng)模塊

遠場識別難題

第一個難題是獲取語音的問題。語音質(zhì)量高的前提下，才能有較好的語音識別結(jié)果。有些公司宣稱自己的語音識別率達到了95%甚至99%，但其前提條件往往是聲源距離很近、環(huán)境特別安靜、說話人的普通話特別標準，而非日常的應(yīng)用場景。

獲取用戶語音，根據(jù)距離分為近場識別和遠場識別兩種情況，后者難度更大。

手機上的語音交互是典型的近場，距離聲源近，語音信號的質(zhì)量較高。另一方面，采集語音的交互相對簡單，有觸摸屏輔助，用戶通過點擊開始和結(jié)束進行信號采集，保證可以錄到用戶說的話。

遠場語音交互以智能音箱為代表，聲源遠，不知道聲源具體位置，環(huán)境中存在噪聲、混響和反射。單麥克風(fēng)無法滿足要求，需要麥克風(fēng)陣列支持。用戶可能站在任意方位，被語音喚醒后，需要定位到聲源位置，向該方向定向識音，增強語音并降低其他區(qū)域和環(huán)境的噪聲。

△ 遠場識別示意圖（來源：雷鋒網(wǎng)）

語音識別正確率

實際工作中，常用的指標是識別詞錯誤率（Word Error Rate）。微軟語音和對話研究團隊負責(zé)人黃學(xué)東最近宣布微軟語音識別系統(tǒng)錯誤率由5.9%進一步降低到5.1%，可與專業(yè)速記員比肩。進步來自于兩方面，一是技術(shù)，包括隱馬爾可夫模型、機器學(xué)習(xí)和各種信號處理方法，另一方面是龐大的計算資源和訓(xùn)練數(shù)據(jù)。

語義識別

如果你和語音助手進行過對話，會發(fā)現(xiàn)其語義理解還停留在固定模式識別的套路上，根據(jù)用戶話中特定的詞做出反應(yīng)，不一定能給出正確的回答。

約翰·希爾勒提出過「中文房間」的思想實驗，一個不懂中文，會說英語的人在一個封閉房間中，房間里有一本英文手冊告知如何處理相應(yīng)的中文信息。用中文寫的問題從窗戶遞進房間里，這個人對照手冊進行查找，將對應(yīng)的中文解答寫在紙上并遞出去。房間外的人可能會覺得這個人很懂中文，實際他一竅不通。訓(xùn)練機器來理解語義類似于這個過程。通過訓(xùn)練，我們讓機器的反應(yīng)接近于能夠理解，但無法像人類一樣真正理解語言。

語言是人和人之間交流的工具，某種程度上適合人的認知系統(tǒng)，如何期待機器更好的理解我們？

目前來講，遇到的問題至少有分詞、歧義和未知語言處理。中文不像英文單詞有空格分開，而且歧義性高，對AI有更高的要求。例如「南京市長江大橋」就可以分成「南京市/長江大橋」和「南京市長/江大橋」兩種，「雞不吃了」有多種含義。和Siri說「打開飽了么外賣」，在它沒有學(xué)過「飽了么」這個單詞的情況下，它將如何處理？

多輪對話問題

我們覺得語音助手很蠢，有時是因為它違反了人類對話的原則。人類對話看似簡單，但會根據(jù)對方的背景和自己掌握的信息，調(diào)整對話內(nèi)容，上下文之間也會有呼應(yīng)關(guān)系。但是，現(xiàn)有的很多產(chǎn)品，其對話缺少關(guān)聯(lián)性。語音助手不理解上下文背景，只能進行單輪對話，看似進行的多輪對話其實也只是多個單輪對話的組合。

「愚蠢」帶來的一是不自然，二是增加任務(wù)難度。比如當你問語音助手「明天的天氣是什么？」它說下雨，再接著問「后天呢？」這時它并不明白提問的是后天的天氣，只能再完整的問一次「后天的天氣是什么？」

在下面這個對話里，小冰一會兒說陰陽師是游戲，一會兒是電影，并沒有對話的記憶。

△ 小冰沒有對話的記憶

四. 語音交互設(shè)計規(guī)范

由于語言尤其口語的形式不固定，變化很大，VUI的交互設(shè)計和GUI截然不同，更加細致繁瑣。亞馬遜已經(jīng)給開發(fā)者提供了成熟的交互設(shè)計規(guī)范。

語音交互設(shè)計至少可分為幾步，首先建立功能目的，其次撰寫腳本，即用戶和系統(tǒng)如何對話，第三步是制定流程、用戶使用路徑等，還需要定義技能的結(jié)構(gòu)，包括完成一個功能需要哪些參數(shù)、用語有哪些變化。例如對于同一個功能，用戶可以說「天氣怎么樣」也可以問「外面下雨嗎」。

遠場語音交互產(chǎn)品的冷啟動

遠場語音交互產(chǎn)品存在冷啟動周期，只有積累了一定數(shù)據(jù)才可以更好提升產(chǎn)品體驗，但如何提高銷量、積累數(shù)據(jù)是產(chǎn)品啟動時需要思考的問題。如果希望語音交互產(chǎn)品可以成為平臺，千萬量級是基本門檻，如果Echo在今年的銷量可以達到預(yù)計的兩千萬臺，基本上有了足夠數(shù)據(jù)，有成為平臺的希望。國內(nèi)一些模仿者使用節(jié)日促銷的模式，例如雙十一天貓精靈99元的售價，賣出了100萬臺，希望通過這種方式進行數(shù)據(jù)的初步積累。

缺乏持續(xù)使用動力和核心場景

新鮮勁過去后，很多人會對語音交互失去興趣，觸控仍然是主要的交互方式。Creative Strategies的數(shù)據(jù)發(fā)現(xiàn)，97%的人在兩周時間內(nèi)會對Alexa的新功能失去興趣。Voice Lab的數(shù)據(jù)發(fā)現(xiàn)，62%的安卓用戶很少或者偶爾使用語音助手，這一比例在iOS用戶上是70%。目前，語音交互缺乏只有其才能實現(xiàn)的核心功能，即使亞馬遜的Echo，它最多的用途仍然是聽歌，缺少核心競爭力和不可替代性。

五. 問題討論

語音交互是否會成為主流交互方式

筆者的意見是，就像觸控沒有取代鼠標鍵盤，語音交互不太可能成為主流的交互方式。交互界面本來就是多模態(tài)的，語音交互將豐富現(xiàn)有的交互形式而不會取代其他。如前文所述，語音交互不能解決所有問題，只是在特定的場景可以發(fā)揮作用。

伴隨語音的多交互通道是不錯的選擇，例如語音和觸控結(jié)合可以提高準確度，語音和視覺結(jié)合，實現(xiàn)語音輸入加視覺反饋，或者加上手勢等。

是否需要追求語音交互的純潔性

Echo團隊認為，語音是最自然的交互方式，因此堅持設(shè)計語音交互，但語音輸入和視覺輸出的模型已被證明其成功性，我們在手機上使用的語音交互模型就是如此。新品Echo Show也裝上了屏幕，可以顯示視覺信息了。所以是否有必要堅持純粹的語音交互模型？答案似乎已經(jīng)很明顯。新問題是，如果Echo加上了屏幕，用戶會認為它是音箱還是平板？

△ 加上屏幕的Echo Show

六. 語音交互的定位

本質(zhì)上，語音交互允許人通過語音的方式完成任務(wù)，能通過語音完成的，觸控也可以，Siri可以做到的，Echo也可以，做不到的大家都做不到。所以語音交互能夠完成什么獨有的任務(wù)以體現(xiàn)它的價值呢？

VUI vs. CUI

語音設(shè)計師Cheryl Platz在她的Medium上反復(fù)提及一個問題，VUI還是Conversational UI？

語音交互界面是基于單獨的任務(wù)，它的模式是簡單的「下命令——完成任務(wù)」，然而這不是自然的對話，我們需要思考如何下命令，距離對話太遠了。如果要朝著CUI的目標，語音交互必須更加智能和流暢，允許通過真正的對話完成任務(wù)，像和真人說話一樣。

隱私問題

如果語音助手要更好用、更智能，就需要不斷收集用戶的信息。所以我們是否需要語音助手改變自己的反應(yīng)？如果語音助手目的就是商業(yè)的，那么我們是否信任它并提供信息，從而讓它更了解我的喜好？

另一方面，語音助手是否安全？通過喚醒詞喚醒的語音交互產(chǎn)品會保持待機，從環(huán)境中獲取聲音，這種機制可能被利用。在一則新聞中，Echo被破解并成為了一個24小時竊聽器。還有連接方式，德國禁止銷售的一款兒童語音玩具「My Friend Cayla」，其藍牙連接就被證明是不安全的，兒童與玩具對話的語音可能被第三方獲取。

△ 兒童語音玩具My Friend Cayla

語音交互界面的測試方式

和普通產(chǎn)品的研究方法共通，可用性測試、訪談等方法依然適用于研究語音交互系統(tǒng)。測試VUI時可以特別注意一些地方，例如用戶的反應(yīng)，成功率，停頓或者失敗等等。有一些特定指標可以用于評估，例如速度準確度、用戶付出的認知努力、清晰易懂度、系統(tǒng)友好程度和聲音質(zhì)量等。

下面介紹一個有趣的語音交互界面測試方法——Woz法。由于語音交互系統(tǒng)成本較高，在系統(tǒng)開發(fā)前，通過Woz（Wizard of Oz）的原型測試發(fā)現(xiàn)問題，成本很低。由一名研究人員扮演Wizard，一名普通研究人員協(xié)助，用戶操作后，由Wizard在暗處手動播放反饋。