|
圖靈TOPIA 作者:Mingke 編輯:劉靜 千鳥 李爾客 圖靈聯(lián)邦編輯部出品 【編者按】曾因《為什么現(xiàn)在的人工智能都像人工智障》一文引發(fā)廣泛關(guān)注的作者M(jìn)ingke又出神作。他對目前市場上主要的智能助理產(chǎn)品做了測試和分析,結(jié)果發(fā)現(xiàn),這些產(chǎn)品智商依舊令人捉急,智障仍然還是那個智障。 原因在于,基于深度學(xué)習(xí)的自然語言理解,僅能提取概念實體,并不能進(jìn)行邏輯推理,無法理解用戶意圖。 在Mingke看來,深度學(xué)習(xí)僅能處理明文信息,不能處理場景、聲音、視覺等世界模型信息。在這種情況下,智能助理產(chǎn)品的出路是什么? 以下是圖靈君對Mingke精彩觀點和建議的介紹。 別的人工智能那么厲害,為什么你的Siri還是那么蠢? ▲ Sophia in AI for Good Global Summit 2017. Source: ITU 2017 年 10 月,上圖這個叫 Sophia 的機(jī)器人,被沙特阿拉伯授予正式公民身份。 Sophia 經(jīng)常參加各種會、「發(fā)表演講」、「接受采訪」,比如去聯(lián)合國對話,表現(xiàn)出來非常類似人類的言談;去和 Will Smith 拍 MV;接受 Good morning Britain 之類的主流媒體的采訪;甚至公司創(chuàng)始人參加 Jim Fallon 的訪談時一本正經(jīng)的說 Sophia 是「basically alive」。 要知道,西方的吃瓜群眾都是看著《終結(jié)者》長大的,前段時間還看了《西部世界》。在他們的世界模型里,「機(jī)器智能會覺醒」這個設(shè)定是遲早都會發(fā)生的。 普通大眾開始嚇得瑟瑟發(fā)抖。不僅開始擔(dān)心自己的工作是不是會被替代,還有很多人開始擔(dān)心 AI 會不會統(tǒng)治人類。「未來已來」,很多人都以為真正的人工智能已經(jīng)近在咫尺了。 只是,好像總感覺有哪里不對:「等等,人工智能都要威脅人類了,為啥我的 Siri 還那么蠢?」 「 不要日本菜 」測試 早在 2016 年底,Mingke就做過一個測試,對幾個智能助理提一個看似簡單的需求:「推薦餐廳,不要日本菜」。 各家的智能助理都給出了一堆餐廳推薦,結(jié)果,全是日本菜。 2 年過去了,智能助理在這個問題的處理上有進(jìn)展么?再做一次測試。 結(jié)果是依然沒有解決?!覆灰箖蓚€字被所有智能助理一致忽略了,推薦的仍然全是日本菜。 ▲ Source: Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018 皇帝的新衣 回過頭來,我們再來看看那位沙特阿拉伯的公民,Sophia。你發(fā)現(xiàn)問題了嗎:蘋果、谷歌和亞馬遜投入了無數(shù)金錢和科學(xué)家打造的智能助理蠢成這樣,憑什么這個 Sophia 能一鳴驚人? 答案是, Sophia 的「智能」是個騙局。 可以直接引用 Facebook人工智能團(tuán)隊首席AI科學(xué)家Yann LeCun 對此的評價,「這完全是鬼扯」。 簡單說,Sophia就是一個帶喇叭的木偶——在各種大會上的發(fā)言和接受采訪的內(nèi)容其實都是人工撰寫的,然后用語音合成做輸出。然而,這些卻被宣傳成是Sophia「人工智能」的自主意識言論。 考慮到大部分吃瓜群眾是通過媒體渠道來了解當(dāng)前技術(shù)發(fā)展的,跟著炒作的媒體都是這場騙局的共犯,比如被點名的 Tech Insider。這些不知道是無知還是無良的文科生,真的沒有做好新聞工作者份內(nèi)的調(diào)查工作。 當(dāng)前對話系統(tǒng)的本質(zhì):填表 對話智能的交互(CUI, Conversational UI)是個黑箱:終端用戶能感知到自己說出的話(輸入)和機(jī)器人的回答(輸出)——但是感覺不到處理的過程。就好像跟人說話,你并不知道他是怎么想的。 雖說每家的黑箱里面都不同,但是最底層的思路,都萬變不離其宗,核心就是兩點:聽人話(識別)+ 講人話(對話管理)。 「 AI如何聽懂人話 ?」 我們來看一個例子。 在生活中,如果想要訂機(jī)票,人們會有很多種自然的表達(dá): 「訂機(jī)票」; 「有去上海的航班么?」; 「看看航班,下周二出發(fā)去紐約的」; 「要出差,幫我查下機(jī)票」; 等等等等 可以說,「自然的表達(dá)」有無窮多的組合(自然語言)都在代表「訂機(jī)票」這個意圖。而聽到這些表達(dá)的人,可以準(zhǔn)確理解這些表達(dá)指的是「訂機(jī)票」這件事。 在過去,要理解這么多種不同的表達(dá),對機(jī)器是個很大的挑戰(zhàn)。 自然語言理解這個技能出現(xiàn)后,可以讓機(jī)器從各種自然語言的表達(dá)中區(qū)分出來,哪些話歸屬于這個意圖。比如經(jīng)過訓(xùn)練后,機(jī)器能夠識別「幫我推薦一家附近的餐廳」,就不屬于「訂機(jī)票」這個意圖的表達(dá)。 并且,通過訓(xùn)練,機(jī)器還能夠在句子當(dāng)中自動提取出來「上?!梗@兩個字指的是目的地這個概念(即實體);「下周二」指的是出發(fā)時間。 這樣一來,看上去「機(jī)器就能聽懂人話啦!」。 但是任務(wù)類的對話智能,往往不止是語音控制這樣一輪交互。如果一個用戶說,「看看明天的機(jī)票」——這表達(dá)正常,但無法直接去執(zhí)行。因為缺少執(zhí)行的必要信息:1)從哪里出發(fā)?和 2)去哪里? 這就涉及到了對話語言的生成。 「 AI 如何講人話?」 決定「該說什么話」,才是對話系統(tǒng)的核心——無論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個版塊并沒有起到什么作用。 在當(dāng)前,處理「該說什么」這個問題,主流的做法是由所謂「對話管理」系統(tǒng)決定的。 目前所有任務(wù)類對話系統(tǒng),無論是前段時間的 Google duplex,還是智能客服或者智能助理,最核心的對話管理方法,有且僅有一個:「填槽」,即 Slot filling。 那么這個「填槽」究竟是個什么鬼?嗯,不搞開發(fā)的大家可以簡單的把它理解為「填表」:好比你要去銀行辦個業(yè)務(wù),先要填一張表。 如果這張表上的空沒有填完,柜臺小姐姐就不給你辦。她會紅筆給你圈出來:「必須要填的空是這些,別的你都可以不管?!鼓闳刻詈昧耍龠f給小姐姐,她就去給你辦理業(yè)務(wù)了。 還記得剛剛那個機(jī)票的例子么?用戶說「看看明天的機(jī)票」,要想執(zhí)行「查機(jī)票」,就得做以下的步奏,還要按順序來: 2018年5月,Google I/O 發(fā)布了 Duplex 的錄音 Demo,場景是 Google Assistant 代替用戶打電話去訂餐廳,和店員溝通,幫助用戶預(yù)定位子。 那 Google 的智能助理(后稱 IPA)又怎么知道用戶的具體需求呢?跑不掉的是,用戶還得給 Google Assistant 填一張表,用對話來交代自己的具體需求,比如下面這樣: ▲圖中左邊是一個使用 Google Assistant 訂餐廳的真實案例,來自 The Verge。 「 當(dāng)前對話系統(tǒng)的局限 」 還記得之前提到的「不要日本菜」測試么? 當(dāng)前基于深度學(xué)習(xí)的 NLU 在「實體提取」這個技術(shù)上,就只能提取「實體」。 而人能夠理解,用戶這個表述指的是「排除掉日本菜以外的其他選擇」。這是因為人除了做「實體提取」以外,還根據(jù)所處語境做了一個對邏輯的識別:「xx 以外」。然后,自動執(zhí)行了這個邏輯的處理,即經(jīng)過推理去進(jìn)一步理解,對方真正指的是什么(即指代)。 人類這個邏輯推理的過程,并不依賴于某個之前設(shè)計好的步驟(從 1 到 5)。 更麻煩的是,邏輯的出現(xiàn),不僅僅影響「實體」,還影響「意圖」: 「hi Siri,別推薦餐廳」——它還是會給你推薦餐廳; 「hi Siri,除了推薦餐廳,你還能推薦什么?」——它還是會給你推薦餐廳。 中文英文都是一樣的;Google assistant 也是一樣的。 想要處理這個問題,不僅要識別出「邏輯」,還要正確判斷出這個邏輯是套用在哪個實體,或者是不是直接套用在某一個意圖上。這個判斷如何做?用什么做?都不在當(dāng)前 SLU 能處理的范圍內(nèi)。 理解人類對話的本質(zhì):思維 我們首先要了解需要解決的問題,才可能開展解決問題的工作。在對話領(lǐng)域,我們需要知道人們對話的本質(zhì)是什么。 舉個例子:你是一位 30 歲出頭的職場人士,每天上午 9 點半都要經(jīng)過辦公樓的旋轉(zhuǎn)門,進(jìn)到大堂然后刷工牌進(jìn)電梯,去到 28 樓你的辦公室。今天是 1 月 6 日,平淡無奇的一天。你剛進(jìn)電梯,電梯里只有你一個人,正要關(guān)門的時候,有一個人匆忙擠進(jìn)來。 如果匆忙進(jìn)電梯來的是你的項目老板,而且假設(shè)他和你(多半都是他啦)都很關(guān)注最近的新項目進(jìn)展,那么你們要開展的對話就很多了。 在電梯里,你跟他打招呼:「張總,早!」, 他會回你「早啊,對了昨天那個…」 不待他問完,優(yōu)秀如你就能猜到大概后面要聊的內(nèi)容是關(guān)于新項目。甚至,你可以通過昨天他不在辦公室,大概漏掉了這個項目的哪些部分,來推理你這個時候應(yīng)該回復(fù)他關(guān)于這個項目的具體哪方面的問題。 「昨天你不在,別擔(dān)心,客戶那邊都處理好了。打款的事情也溝通好了,30 天之內(nèi)搞定?!鼓憧?,不待張總問完,你就能很棒地回答上。這多虧了你對他的模型的判斷是正確的。 一旦你對對方的情景模型判斷失誤,那么可能完全「沒打中點上」。 「我知道,昨天晚上我回了趟公司,小李跟我說過了。我是要說昨天晚上我回到辦公室的時候,你怎么沒在加班呀?小王,你這樣下去可不行啊……」 所以,人們在進(jìn)行對話的過程中,并不是僅靠對方上一句話說了什么(對話中明文所包含的信息)就來決定回復(fù)什么。這和當(dāng)前的對話系統(tǒng)的回復(fù)機(jī)制非常不同。 基于世界模型的推理 對世界的感知,包括聲音、視覺、嗅覺、觸覺等感官反饋,有助于人們對世界建立起一個物理上的認(rèn)識。對常識的理解,包括各種現(xiàn)象和規(guī)律的感知,在幫助人們生成一個更完整的模型:世界模型。 每個人的世界模型都不完全一樣,有可能是觀察到的信息不同,也有可能是推理能力不一樣。世界模型影響的是人的思維本身,繼而影響思維在低維的投影:對話。 讓我們從一個例子開始:假設(shè)現(xiàn)在咱們一起來做一個不那么智障的助理。我們希望這個助理能夠推薦餐廳酒吧什么的,來應(yīng)付下面這樣的需求: 當(dāng)用戶說:「我想喝點東西」的時候,系統(tǒng)該怎么回答這句話?我相信大家都了解,我們可以把它訓(xùn)練成為一個意圖「找喝東西的店」,然后把周圍的店檢索出來,然后回復(fù)這句話給他:「在你附近找到這些選擇」。 恭喜,咱們已經(jīng)達(dá)到 Siri 的水平啦! 但我們要做的是不那么智障的智能助理。這個「喝東西的店」是奶茶點還是咖啡店?還是全部都給他? 嗯,這就涉及到了推理。我們來手動模擬一個。假設(shè)我們有用戶的 Profile 數(shù)據(jù), 假設(shè)我們有用戶的 Profile 數(shù)據(jù)可用:如果他的偏好中最愛的飲品是咖啡,就給他推薦咖啡店。 這樣一來,我們就可以更「個性化」的給他回復(fù)了:「在你附近找到這些咖啡店」。 這個時候,咱們的 AI 已經(jīng)達(dá)到了不少「智能系統(tǒng)」最喜歡鼓吹的個性化概念——「千人千面」啦! 然后我們來看這個概念有多蠢。 一個人喜歡喝咖啡,那么他一輩子的任意時候就都要喝咖啡么? 人是怎么處理這個問題的呢?如果用戶是在下午 1 點這么問,推薦咖啡店就還好;如果是在晚上 11 點呢?我們還要給他推薦咖啡店么?是不是應(yīng)該給他推薦一家酒吧?又或者,如果今天是他的生日,那么我們是不是該給他點不同的東西?或者今天是圣誕節(jié),該不該給他推薦熱巧克力? 你看,時間是一個維度,在這個維度上的不同值都在影響給用戶回復(fù)什么不同的話。
時間和用戶的 Profile 不同的是: 1. 時間這個維度上的值有無限多; 2. 每個刻度還都不一樣。比如雖然生日是同一個日期,但是過的是幾歲的生日卻不同。
除了時間維度以外,還有空間維度。 于是我們把空間這個維度疊加到時間上去。你會發(fā)現(xiàn),如果用戶在周末的家里問這個問題(可能想叫奶茶外賣到家?),和他在上班時間的辦公室里問這個問題(可能想出去走走換換思路),咱們給他的回復(fù)也應(yīng)該不同。 光是時空這兩個維度,就有無窮多的組合,何況時間和空間,只是世界模型當(dāng)中最顯而易見的兩個維度。還有更多的,更抽象的維度存在,并且直接影響與用戶的對話。比如,人物之間的關(guān)系;人物的經(jīng)歷;天氣的變化;人和地理位置的關(guān)系(是經(jīng)常來出差、是當(dāng)?shù)赝林?、是第一次來旅游)等等等等?/span> 深度學(xué)習(xí)無能為力 至此,影響人們對話的,光是信息(還不含推理)至少就有這三部分:明文(含上下文)+ 場景模型(Context)+ 世界模型。 普通人可以毫不費力地完成這項工作,但深度學(xué)習(xí)只能處理基于明文的信息。對于場景模型和世界模型的感知、生成以及基于模型的推理,深度學(xué)習(xí)統(tǒng)統(tǒng)無能為力。 這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無法實現(xiàn)真正的智能(AGI)的本質(zhì)原因:不能進(jìn)行因果推理。 「 單靠深度學(xué)習(xí)搞不定語言,現(xiàn)在不行,將來也不行 」 在人工智能行業(yè)里,你經(jīng)常會聽到有人這么說,「盡管當(dāng)前技術(shù)還實現(xiàn)不了理想中的人工智能,但技術(shù)是會不斷演進(jìn)的,隨著數(shù)據(jù)積累的越來越多,終將會實現(xiàn)讓人滿意的人工智能?!?/span> 如果這個說法是指寄希望于僅靠深度學(xué)習(xí)不斷積累數(shù)據(jù)量,就能翻盤——那就大錯特錯了。 無論你怎么優(yōu)化「馬車」的核心技術(shù),比如使用更壯、更多的馬,都無法以此造出汽車(下圖右)。
解釋人工智障產(chǎn)品 以上,我們了解到人們對話的本質(zhì)是思維的交換,而遠(yuǎn)不只是明文上的識別和基于識別的回復(fù)。當(dāng)前的人工智能產(chǎn)品完全無法實現(xiàn)這個效果。當(dāng)用戶帶著人類的世界模型和推理能力來跟機(jī)器用自然語言交互時,就很容易發(fā)現(xiàn)破綻。
至此,是不是有一種絕望的感覺?這些問題學(xué)界和行業(yè)大牛都沒有解決方案,或者說連有把握的解決思路都沒有。 那么,是不是做對話智能這類產(chǎn)品的上限就是這樣了? 不是。對于一項技術(shù)而言,可能確實觸及上限了;但是對于應(yīng)用和產(chǎn)品設(shè)計而言,并不是由一個技術(shù)決定的,而是很多技術(shù)的結(jié)合,這里還有很大的空間。 作為產(chǎn)品經(jīng)理,我們應(yīng)該怎么做呢? 必須承認(rèn)的事實是,人工智能創(chuàng)業(yè)團(tuán)隊最基礎(chǔ)的認(rèn)知計算能力區(qū)別不會太大,畢竟大家都是基于大牛們發(fā)表的最新論文。這意味著對話式人工智能公司單純比拼深度學(xué)習(xí)技術(shù)沒有太多意義。
市面上以深度學(xué)習(xí)為基礎(chǔ)的對話類產(chǎn)品,語義理解應(yīng)該只占整個產(chǎn)品的5%—10%。如果混合使用其它技術(shù)工具,比如DL+GOFAI(Deep learning+Good old fashion AI),勢必會增加開發(fā)團(tuán)隊和設(shè)計的發(fā)揮空間。
GOFAI是John Haugeland 首先提出的,是在深度學(xué)習(xí)火起來之前的symbolic AI,也就是專家系統(tǒng)。目前AI領(lǐng)域從業(yè)者看不上的“if then”講的就是這個。
確定產(chǎn)品邊界很重要
具體到產(chǎn)品設(shè)計,對話式人工智能產(chǎn)品的設(shè)計原則可以歸納為存在即被感知。換句話說,產(chǎn)品設(shè)計應(yīng)該圍繞如何讓用戶感覺和自己對話的AI是有價值的。
對于眼下的弱人工智能產(chǎn)品來說,產(chǎn)品設(shè)計首先要設(shè)定好產(chǎn)品的邊界,以及定好“越界時給用戶的反饋”。而后產(chǎn)品經(jīng)理就可以在設(shè)定的范圍內(nèi)發(fā)揮想象力,組裝出產(chǎn)品。
比如制作一個樹洞機(jī)器人,可以把產(chǎn)品定義為一個好的聽眾,讓用戶把心中的壓力煩惱傾訴出來。
可以看出這個產(chǎn)品的邊界非常明確,主要是系統(tǒng)通過一些語言的反饋,鼓勵用戶繼續(xù)說,而不是鼓勵用戶期望對話系統(tǒng)輸出很多正確且有價值的話。例如下文中的對話:
“我從來沒有這么考慮過這個問題,你為什么會這么想呢?” “關(guān)于這個人,你還有哪些了解?” “你覺得他為什么會這樣?”
這樣產(chǎn)品就大幅減輕了對自然語言生成的依賴,同時降低了對話背后的“場景模型”、“世界模型”,以及“常識推理”這些高緯度的模塊需求。鑒于目前的技術(shù)水平,對話式人工智能產(chǎn)品的邊界,應(yīng)該遠(yuǎn)離嚴(yán)重依賴世界模型和常識推理才能進(jìn)行對話的場景。
智能交互的核心是內(nèi)容,并非交互
對用戶來說,使用對話式人工智能產(chǎn)品的核心訴求是獲取所需信息,解決相關(guān)問題。
而眼下很多人工智能公司號稱產(chǎn)品能進(jìn)行多輪對話,以彰顯智能程度。實際上,在達(dá)到目的且不影響體驗的前提下,對話輪數(shù)越少越好。本質(zhì)上,對話只是用戶獲取產(chǎn)品背后內(nèi)容的交互方式而已。
那對話智能產(chǎn)品如何體現(xiàn)獲取“內(nèi)容”或者“解決問題的能力”呢? 回顧工業(yè)革命帶來的革命性變化,其特征之一就是取代了重復(fù)體力、重復(fù)腦力的工作,比如農(nóng)民、文員類工作大量消失。
從這個角度來說,智能對話類產(chǎn)品首先替代的就是典型意義的智能客服團(tuán)隊。假設(shè)智能客服跟前臺小姐姐的職能差不多。一般而言,前臺小姐姐的主要工作和專業(yè)技能并沒有關(guān)系。她們最重要的技能就是對話,準(zhǔn)確點說是用對話來了解用戶需求,把不合適的需求過濾掉,再把需求轉(zhuǎn)給專家去解決。
想象一下大量被外包的企業(yè)呼叫中心就知道客服的存在有多薄弱了。
不過對話式人工智能產(chǎn)品并非止步于取代智能客服,它需要更進(jìn)一步,代替或者輔助某個領(lǐng)域?qū)<摇?/span>
從這個角度出發(fā),對話智能類產(chǎn)品最核心的價值,是進(jìn)一步代替用戶的重復(fù)思考。Work on the mind not the mouth。
事實上,一位合格的人工智能產(chǎn)品經(jīng)理應(yīng)該明確AI技術(shù)歸AI技術(shù),產(chǎn)品歸產(chǎn)品,應(yīng)該帶著做產(chǎn)品的目的來使用AI,而不是AIPM來實現(xiàn)AI。
為此AIPM應(yīng)該具備以下特質(zhì):1、懂商業(yè),理解價值;2、懂技術(shù),理解手中的工具(深度學(xué)習(xí)+GOFAI);3、懂人,心理和語言。
總的來說,目前對話 AI 的技術(shù)還在第一階段(藍(lán)色旗幟位置),處于探索的早期,稱不上高速發(fā)展。黑箱的情況,會使得這個周期(第一階段)可能比移動時代更長。就目前學(xué)術(shù)界、工業(yè)界的進(jìn)展來看,第二種技術(shù)還沒有看到影子。
由于深度學(xué)習(xí)在對話智能中只扮演了一部分角色,因此大家可探索和成長的空間還非常大。但正因為如此,在可預(yù)見的將來,技術(shù)并非對話類智能產(chǎn)品的壁壘,數(shù)據(jù)和設(shè)計才是。
值得一提的是,上述提及的數(shù)據(jù)不是指用來訓(xùn)練的數(shù)據(jù),而是供給端能完成服務(wù)的數(shù)據(jù);能夠照顧用戶整個生命周期的數(shù)據(jù);除用戶明文以外的數(shù)據(jù);影響用戶腦中的環(huán)境模型、影響對任務(wù)執(zhí)行相關(guān)的常識推理數(shù)據(jù)等。 隨著IOT的發(fā)展,終端設(shè)備廠商與用戶直接打交道,最有可能掌握這些數(shù)據(jù)。聯(lián)想到近期BAT以及小米、思必馳、曠視科技等企業(yè)不斷拋出的AIOT戰(zhàn)略,可以瞥見互聯(lián)網(wǎng)公司、創(chuàng)業(yè)公司嗅覺之靈敏。 過去幾年間,大大小小的公司紛紛押注智能音箱,以期搶占IOT時代的入口。可現(xiàn)狀不如人意,用戶使用智能音箱最常見的功能還是天氣,也沒有對智能音箱產(chǎn)生依賴。 隨著5G、云計算等技術(shù)的發(fā)展,任意一個聯(lián)網(wǎng)設(shè)備都可能具備語音交互和傳遞服務(wù)的能力,削弱了超級終端存在的可能性。 倘若真如此,隨著更豐富入口終端設(shè)備的涌現(xiàn),可能移動時代以流量為中心的商業(yè)模式將不復(fù)存在,新的商業(yè)模式將誕生。
|
|
|