[IxDA Taiwan #49] 你也學得會的語音互動設計

文 / Jeffrey Hung

IxDA Taiwan 第49 次的互動設計工作坊,邀請到了Kika Tech 團隊語音負責人Daniel Huang、設計負責人Craig Kuo,以及語音互動設計師Eggu Lee 來跟我們分享如何做語音的互動設計。

Kika Tech 為全球最大第三方輸入法公司,核心產品 Kika Keyboard,全球超過4 億用戶,每月服務6 千萬活躍用戶。同時Kika 於2018 年推出語音系列產品,包含獲得CES 四項大獎的KikaGo 與Kika Voice Board,就是講師們團隊負責的產品。

回想一下我們日常生活中的對話內容與場景

如果有一天你在家裏,而門口的電鈴響了,你會怎麼做?

在這個情境下,首先我們已知一個明確意圖:我們要去應答這個門鈴。但在瞭解更多資訊以前,我們還不確定最後要怎麼做。

因此我們就要開始想了,有哪些問題可以幫助我瞭解更多訊息?例如詢問是誰按了門鈴詢問爲什麼按門鈴。等到我們有足夠的資訊來判斷我們要怎麼做之後,我們便可以決定要:「開門」或「請對方改天再來」。

以上,其實就是對話式互動中最基本的需求分析的內容:有一個基本的意圖(intent)、有幫助判斷該如何行動的必要訊息(entities)、有可以執行的行動選擇(action)。

對話式互動是一個連續型溝通系統

很顯然地,爲了完成日常生活中的一些意圖,我們需要取得一些訊息來協助判斷該採取什麼樣的行動。以應答門鈴的例子爲例,我們會問「是誰按了門鈴」,還有「爲什麼按門鈴」。這概念在智能產品或服務上也一樣,要是今天應答門鈴的是一款智慧門鈴產品或系統,我們就必須爲智慧門鈴設計一套問答流程來取得必要的訊息,讓系統可以判斷如何回應。而這問與答的流程以及其所涉及到的互動就可以被歸類爲對話式互動。

對話式互動聽起來很直覺,但爲了更好凸顯出它的特性,Daniel 引入了「連續型溝通互動系統(Continuity Interaction)」的概念來進一步說明:當人與機器的對話式互動開始,這個互動是連續性的且相對無法中斷。回想一下對話式互動的代表應用例如聊天機器人與智能音箱,確實如此。

對話式互動設計的代表產品:聊天機器人(左)、智能音箱(右)

因此Kika 團隊提醒我們,在進行共同設計時要確保自然、直接、適配這3 項原則,才能達到較好的使用體驗。

溝通設計的三個原則

爲什麼會有對話式的互動產生呢?平常我們更常使用的圖像介面難道不行嗎?

Kika團隊告訴我們適合對話式互動的情境通常具有以下特性:

  • 不方便/不能夠圖像介面操作的互動(如開車導航、家庭IoT控制裝置等)
  • 用戶對需求的操作變化性高的互動(如點菜服務、資料檢索的服務等)

理論上來說,跟圖像介面相比,對話式互動有着更加自然的優點。對話式互動能打破資訊結構,用戶不需要重新解構視覺介面的操作方式(如下圖入口網站式的入口 vs 對話式的入口)。論及進入互動的速度,對話式互動會比圖像介面來得更快些。但目前的對話式互動存在着限制,現今的技術對於用戶對話內容的理解還無法完全覆蓋各個層面,而且市場的環境與產品還不夠成熟,用戶需要一定的訓練才能建立起使用產品的心智模型。這一點在智能音箱上尤其明顯,用戶要跟智能音箱互動一段時間後才比較能掌握到它完整的使用方式。

左側的網站式入口需要先瞭解各個區域的資訊後才能開始互動;右側則比較直接。

讓我們實際透過對話式互動的原則來設計一款產品吧

Kika 團隊分享的設計流程分爲 4 大部分:

  • Step 1:需求分析,即確認意圖(intent)、必要之訊息(entities)、行爲(action)。
  • Step 2:規劃上述意圖的觸發事件,想想用戶會說什麼話下指令觸發意圖(intent)。
  • Step 3:設計對話流程與對話內容,把意圖(intent)放最前面,當用戶觸發了事件之後,用戶的意圖被我們理解。接下來我們要詢問一些必要之訊息(entities)來協助我們做出最適當的行爲(action)。
  • Step 4:加上口語的對話command與意圖(intent)連結,完成一組對話式互動設計。

挑戰題目:使用以上流程來思考以下產品該如何設計

  • 智慧門鈴
  • 體重計
  • 智能鏡子
  • 電影挑片顧問
各組發表語音互動流程設計

語音互動設計後的產品就是AI嗎?

實現語音互動所需的技術

不諱言,智能語音產品應該是最能讓人感受到AI 氛圍的了。好比說鋼鐵人電影裏賈維斯(J.A.R.V.I.S.)活脫就像個真人一樣,但實際上背後的原理就像我們今天探討的語音互動。既然這樣,爲什麼現在遲遲還沒有真的讓我們感到像真人一樣的語音AI 助理出現呢?

Kika 的語音產品負責人Daniel 分享了目前在實現語音互動上的限制或挑戰,主要體現在 3 點:

  • 必須連網(互動反應的即時性)
  • 環境影響(噪音、距離、口音等)
  • 用戶輸入的模糊型(自然語意理解的瓶頸)

我們可能沒好好想過,像賈維斯那樣的語音AI 助理其實是需要時時連網的,畢竟我們不想把所有資料都儲存在本地端,對吧。而裝置的收音也必須要好好地收到我們講話的內容,這其中影響的環境因子就包含了周遭的噪音、人與收音裝置的距離、每個人說話的口音等等,任一件都不是簡單的事。但所有限制與挑戰中最難的,還是屬於自然語意理解(NUL)。
讓我舉個例子:

A 說:C 來了沒?

B 回答:停車場有一輛白色的車子。

請問A 理解到了什麼?可能的情況至少有下列幾個:

  • C 剛到
  • C 到了一陣子
  • C 還沒到,因爲那不是C 的白色車子
  • 覺得B 答非所問

你會發現光是上面的一句對答就可以有很多種解釋方式,在人的大腦中一瞬間就能想到許多的可能性並依過往經驗做出判斷,但要叫AI 如何回答這個問題呢?用語音的方式一種一種說出來確實太沒效率。語音互動要達到像是真人一般互動還有段路要走,當某天AI 真的能開始理解我們人類的話語中的意思,並作出合適的反應時,我相信人與AI 的互動將迎來一次真正意義上的變革。Kika 也替人機互動的關係下了一個非常好的註解:

「當機器開始理解人的意圖時,能幫助人完成部分旅程;然而,人對這段旅程的掌握度,會決定人對機器的信任程度。」

作者:Jeffrey Hung

關於我的三個關鍵字是:產品、服務、設計
思考著如何設計的產品經理
Medium