雖然這個程序能辨別反諷內(nèi)容,但暫時還無法直接給“謝耳朵”提供幫助。資料圖片
在熱門美劇《生活大爆炸》中,最受歡迎的角色“謝耳朵”患有社交障礙癥,特征之一就是分不清“好賴話兒”,常常錯把人家的諷刺當恭維,因此鬧出了不少笑話。近日,有研究者開發(fā)了一種程序,可以分辨出有諷刺意味的語言。未來,或許這種技術(shù)可以幫助“謝耳朵”這樣的人擺脫“不識反諷”的社交障礙。
研究源于惡作劇
這種程序的開發(fā)者是以色列耶路撒冷大學的計算機科學家蘇爾(Oren Tsur),近日在美國華盛頓的人工智能進步組織大會上展示了自己的研究成果。
諷刺性的語言其實是一種否定和攻擊,但它的語氣比直接的攻擊要平緩一些,通常從中看不出任何關(guān)涉到批評和攻擊的詞,也正因為如此人們往往會對它們聽而不聞,視而不見,而有社交障礙的人識別諷刺性的語言就成了一件非常難的事。蘇爾和同事們開發(fā)了一種電腦程序,可以從網(wǎng)上社區(qū)里識別諷刺性的語言。
雖然這個程序距離理解人類語言所有細微的幽默成分為時尚遠,但它可能會幫助公司了解消費者如何看待他們的產(chǎn)品。比如說,一個購物網(wǎng)站允許消費者貼出自己對產(chǎn)品的看法。一則評論說:“這個鏡頭的大小真合適,我可以把它裝在衣兜里。”而另一則評論說:“這個鏡頭的大小真合適,我需要買個泡菜壇裝它?!鼻耙粋€是夸獎,后一個是諷刺,但如果只從字面上來看,兩者表達的意思似乎是類似的。公司會用一種電腦統(tǒng)計系統(tǒng)來統(tǒng)計用戶的反饋,但是一般的語言統(tǒng)計系統(tǒng)無法識別諷刺性的語言,蘇爾說:“在上面的例子中,一般的統(tǒng)計系統(tǒng)會下結(jié)論說,所有顧客對他們的鏡頭大小都很滿意,這顯然是不對的?!?br /> 有趣的是,蘇爾想要開發(fā)這種電腦程序的念頭正是來自一個玩笑。當蘇爾還是學校新人的時候,他曾經(jīng)接到過一封電子郵件,表示感謝他對以往會議的貢獻,邀請他當今年會議的主席。
這封信顯然應當發(fā)給另一個人,但是蘇爾玩心大發(fā),以諷刺性的語言回了一封信。結(jié)果對方?jīng)]有看出諷刺性的語氣,以很正式的語氣又回了一封郵件,詢問他主要的研究領(lǐng)域是什么。蘇爾回信說:“我的研究領(lǐng)域就是如何探測電子郵件中的諷刺性語言。”從此,蘇爾開始很認真地研究諷刺性的語言。
機器發(fā)現(xiàn)諷刺特征
蘇爾利用“機器學習”的方式開發(fā)了一種電腦程序。在開始的時候,他和同事給電腦輸入80句諷刺性的句子,以及作為對比的幾百句非諷刺性的句子,這些句子都是他們從“亞馬遜”的讀者評價中找到的。這些諷刺性的句子包括:“為了這么本書去砍樹(造紙)?”“對于失眠癥患者很有用”“iPod是被故意設(shè)計得兩年后失效嗎?”“那些缺陷是故意設(shè)計出來的”等等。
這個程序分析了諷刺性和非諷刺性的句子,總結(jié)出諷刺性句子的幾百條特征。其中一個諷刺性語言的特征就是如果句子的開頭是“我猜”,而結(jié)尾是省略號,它通常是諷刺性的。比如:“我猜你們的這個鏡頭是用來裝飲用水的……”“我猜穿著你們的衣服可以去約會鳳姐……”再比如說超出必要地運用大寫字母。蘇爾在他的學術(shù)論文中說:“我們發(fā)現(xiàn)了諷刺的強烈特征,但是更多的細致的特征的組合可能是識別諷刺的最好手段?!?br /> 他們還發(fā)現(xiàn)了一些和諷刺有關(guān)的有趣現(xiàn)象,總結(jié)了三大定律。定律1:流行定律,最受歡迎的產(chǎn)品往往遭諷刺最多。比如在亞馬遜網(wǎng)站上,收到諷刺性評論最多的恰恰是賣得最好的產(chǎn)品,比如小說《達·芬奇密碼》。蘇爾說:“我們推測在網(wǎng)上運用諷刺性語言的一個強烈的動機是想要‘拯救’或者‘啟發(fā)’大眾,矯正不應得的好評。”定律2,簡單性定律。如果產(chǎn)品有缺陷,它的功能越少受到的諷刺越多。定律3,價格定律,價格越高的產(chǎn)品越容易受到諷刺。
幫助社交目標尚遠
為了實驗這個程序是否有效,他們把200個評論交給3個獨立的受試人,結(jié)果愛試人的看法和機器的看法有80%是相同的。研究者認為機器分析數(shù)以百萬計的句子,結(jié)果也會差不離。蘇爾表示,這個程序不僅可以幫助統(tǒng)計產(chǎn)品的網(wǎng)上評論,而且經(jīng)過發(fā)展之后可以用來幫助有社交能力障礙的人。
加利福尼亞大學心理學博士蘭金表示,這個程序的表現(xiàn)還遠稱不上完美,可能因為諷刺是一種非常復雜的社會產(chǎn)物。蘭金評價說,機器的表現(xiàn)只能和社會交往能力很差的人類相當??赡苓@樣的程序可以幫忙統(tǒng)計評論的正負意見,但是“如果你的目標是幫助社交能力不佳的人士,我不能完全肯定他們真能從中獲益。”
比如,一個人說:“我太愛愛愛愛愛在周六工作了!”這句話是不是諷刺呢?如果背景是領(lǐng)導強迫員工在周末加班,這句話就是諷刺,但或許有人喜歡在周末工作,平常休息,這種情況這句話就不是諷刺。說這句話的時候,人的眼神和語氣會包含很多信息量,但是在網(wǎng)上看不到這些。
蘭金說:“我們的大腦可以采集復雜的社交信息,處理很多微妙的事情,電腦距離這步還有很遠。”
□編譯/本報記者 劉錚