2010年6月20日 星期日

科學家研發“識別反諷”軟件 “謝耳朵”有救了

http://news.sina.com.tw/article/20100620/3328235.html

  在熱門美劇《生活大爆炸》中,最受歡迎的角色“謝耳朵”患有社交障礙症,特徵之一就是分不清“好賴話兒”,常常錯把人家的諷刺當恭維,因此鬧出了不少笑話。近日,有研究者開發了一種程序,可以分辨出有諷刺意味的語言。未來,或許這種技術可以幫助“謝耳朵”這樣的人擺脫“不識反諷”的社交障礙。

  研究源於惡作劇

  這種程序的開發者是以色列耶路撒冷大學的計算機科學家蘇爾(Oren Tsur),近日在美國華盛頓的人工智能進步組織大會上展示了自己的研究成果。

  諷刺性的語言其實是一種否定和攻擊,但它的語氣比直接的攻擊要平緩一些,通常從中看不出任何關涉到批評和攻擊的詞,也正因為如此人們往往會對它們聽而不聞,視而不見,而有社交障礙的人識別諷刺性的語言就成了一件非常難的事。蘇爾和同事們開發了一種電腦程序,可以從網上社區里識別諷刺性的語言。

  雖然這個程序距離理解人類語言所有細微的幽默成分為時尚遠,但它可能會幫助公司了解消費者如何看待他們的產品。比如說,一個購物網站允許消費者貼出自己對產品的看法。一則評論說:“這個鏡頭的大小真合適,我可以把它裝在衣兜里。”而另一則評論說:“這個鏡頭的大小真合適,我需要買個泡菜壇裝它。”前一個是誇獎,後一個是諷刺,但如果只從字面上來看,兩者表達的意思似乎是類似的。公司會用一種電腦統計系統來統計用戶的反饋,但是一般的語言統計系統無法識別諷刺性的語言,蘇爾說:“在上面的例子中,一般的統計系統會下結論說,所有顧客對他們的鏡頭大小都很滿意,這顯然是不對的。”

  有趣的是,蘇爾想要開發這種電腦程序的念頭正是來自一個玩笑。當蘇爾還是學校新人的時候,他曾經接到過一封電子郵件,表示感謝他對以往會議的貢獻,邀請他當今年會議的主席。

  這封信顯然應當發給另一個人,但是蘇爾玩心大發,以諷刺性的語言回了一封信。結果對方沒有看出諷刺性的語氣,以很正式的語氣又回了一封郵件,詢問他主要的研究領域是什麼。蘇爾回信說:“我的研究領域就是如何探測電子郵件中的諷刺性語言。”從此,蘇爾開始很認真地研究諷刺性的語言。

  機器發現諷刺特徵

  蘇爾利用“機器學習”的方式開發了一種電腦程序。在開始的時候,他和同事給電腦輸入80句諷刺性的句子,以及作為對比的幾百句非諷刺性的句子,這些句子都是他們從“亞馬遜”的讀者評價中找到的。這些諷刺性的句子包括:“為了這麼本書去砍樹(造紙)?”“對於失眠症患者很有用”“iPod是被故意設計得兩年後失效嗎?”“那些缺陷是故意設計出來的”等等。

  這個程序分析了諷刺性和非諷刺性的句子,總結出諷刺性句子的幾百條特徵。其中一個諷刺性語言的特徵就是如果句子的開頭是“我猜”,而結尾是省略號,它通常是諷刺性的。比如:“我猜你們的這個鏡頭是用來裝飲用水的……”“我猜穿著你們的衣服可以去約會鳳姐……”再比如說超出必要地運用大寫字母。蘇爾在他的學術論文中說:“我們發現了諷刺的強烈特徵,但是更多的細致的特徵的組合可能是識別諷刺的最好手段。”

  他們還發現了一些和諷刺有關的有趣現象,總結了三大定律。定律1:流行定律,最受歡迎的產品往往遭諷刺最多。比如在亞馬遜網站上,收到諷刺性評論最多的恰恰是賣得最好的產品,比如小說《達‧芬奇密碼》。蘇爾說:“我們推測在網上運用諷刺性語言的一個強烈的動機是想要‘拯救’或者‘啟發’大眾,矯正不應得的好評。”定律2,簡單性定律。如果產品有缺陷,它的功能越少受到的諷刺越多。定律3,價格定律,價格越高的產品越容易受到諷刺。

  幫助社交目標尚遠

  為了實驗這個程序是否有效,他們把200個評論交給3個獨立的受試人,結果愛試人的看法和機器的看法有80%是相同的。研究者認為機器分析數以百萬計的句子,結果也會差不離。蘇爾表示,這個程序不僅可以幫助統計產品的網上評論,而且經過發展之後可以用來幫助有社交能力障礙的人。

  加利福尼亞大學心理學博士蘭金表示,這個程序的表現還遠稱不上完美,可能因為諷刺是一種非常複雜的社會產物。蘭金評價說,機器的表現只能和社會交往能力很差的人類相當。可能這樣的程序可以幫忙統計評論的正負意見,但是“如果你的目標是幫助社交能力不佳的人士,我不能完全肯定他們真能從中獲益。”

  比如,一個人說:“我太愛愛愛愛愛在周六工作了!”這句話是不是諷刺呢?如果背景是領導強迫員工在周末加班,這句話就是諷刺,但或許有人喜歡在周末工作,平常休息,這種情況這句話就不是諷刺。說這句話的時候,人的眼神和語氣會包含很多信息量,但是在網上看不到這些。

  蘭金說:“我們的大腦可以採集複雜的社交信息,處理很多微妙的事情,電腦距離這步還有很遠。”


沒有留言:

張貼留言