可以捕捉你興趣點的機器學(xué)習(xí)
芬蘭的研究人員利用機器學(xué)習(xí)開發(fā)出一種技術(shù),可以在你閱讀時讀取你的腦信號來捕捉你的興趣點。
未來涌現(xiàn)的數(shù)據(jù)越來越多,人們又將如何智能地篩分導(dǎo)航信息呢?所以面對堆積如山的MBs(數(shù)據(jù)流量),我們需要更好的方式去過濾分流數(shù)字內(nèi)容。
芬蘭的研究人員一直關(guān)注這個問題,并且已經(jīng)使用腦電圖(electroencephalogram,EGG)感知器監(jiān)控人們閱讀Wiki文章時的腦信號,并將它與經(jīng)過訓(xùn)練的機器學(xué)習(xí)模型結(jié)合起來去解析EEG數(shù)據(jù),同時識別出閱讀者感興趣的概念。這個研究團(tuán)隊使用該技術(shù)生成了一列關(guān)鍵詞,這些關(guān)鍵詞是閱讀者讀到包含信息的地方時心理上標(biāo)記下來(mentally flag)的。這些關(guān)鍵詞之后可用于預(yù)測與這個閱讀者相關(guān)的其他Wiki文章?;蛘呔€下幫助過濾一條社交媒體回復(fù),或者為增強現(xiàn)實用戶實時標(biāo)記出一條符合其興趣的內(nèi)容。
「我們已經(jīng)探索了搜索過程中人類大腦中產(chǎn)生的信號,」研究者Tuukka Ruotsalo說?!脯F(xiàn)在我們想要采集極端(extreme)的信號,我們能嘗試直接讀取使用者大腦中的興趣和注意嗎?」
該團(tuán)隊來自赫爾辛基信息技術(shù)研究所(HIIT),認(rèn)為這是研究人員首次展示了基于直接從腦信號中提取關(guān)聯(lián)推薦新信息。「現(xiàn)在有很多腦機接口研究,但通常。。. 主要研究的都是向計算機作出明確的命令,」Ruotsalo說。「所以那就意味著,你想控制房間里的光線和你在做一個明確的模式時,你正在嘗試明確地做一些事情,然后計算機就要試著從大腦中讀取這些你要做的事情?!?/p>
「在我們的研究中,這些是自然進(jìn)行的。你只要閱讀就好,我們不會讓你在讀到一個興奮的單詞時去拉左右胳膊。你就是在閱讀,同時因為文本中有些地方與你相關(guān),我們能讓機器學(xué)習(xí)與文本喚起的事件匹配的大腦信號,并使用這些信號,」他補充道。
你只需要讀你的書就好,計算機會挑出你閱讀中的興趣點或者有關(guān)聯(lián)的地方。
「所以在某種意義上,它是純粹的被動互動。你只要閱讀,計算機會挑出你閱讀中的興趣點或者有關(guān)聯(lián)的地方?!?/p>
雖然這是一個研究,只有15名測試者和一個腦電帽(EEG cap),沒人愿意在實驗室之外的地方戴上那個帽子,但是它可以讓我們窺探到未來的可能性。一旦有了高質(zhì)量的EGG感知器(人人都能戴的可穿戴智能帽子?),讓整個過程不再那么麻煩,并且可切實結(jié)合機器學(xué)習(xí)軟件,經(jīng)過訓(xùn)練后能掌握一點讀心術(shù)時,它就能走出實驗室了。
「如果你只研究純粹的信號無視其他事情,那就難了,」Ruotsalo解釋道,他指出該團(tuán)隊沒有通過跟蹤任何物理上的身體移動比如眼球運動來解釋興趣。他們對關(guān)聯(lián)的理解僅僅是基于他們的機器學(xué)習(xí)模型解析EEG腦波。
「這是一個真正具有挑戰(zhàn)性的機器學(xué)習(xí)任務(wù)。你需要訓(xùn)練這個系統(tǒng)來探測它。有很多像移動或眼球運動這樣更加容易的東西。。. 能在信號中真實地看到。這次你真正要做的是把它從噪音中找出來?!?/p>
Ruotsalo說他們在數(shù)據(jù)量適度的數(shù)據(jù)集上訓(xùn)練模型,只使用了平均120詞的6個文件,每個文件都用來為其對應(yīng)的測試對象建立模型。實驗還包括使用少量的初始化監(jiān)督學(xué)習(xí),使用的是每個維基百科文章的前六個句子。據(jù)Ruotsalo表明,在未來的研究中他們想看看是否可以在沒有任何監(jiān)督學(xué)習(xí)下達(dá)到同等實驗結(jié)果。
雖然「興趣」的概念是相當(dāng)廣泛的,它可能是由讀者因各種不同原因在心理上標(biāo)記的一個關(guān)鍵詞,他強調(diào)人們已經(jīng)經(jīng)過有效地訓(xùn)練來以這種方式導(dǎo)航信息,因為他們已經(jīng)習(xí)慣使用通過這種興趣信號的語言來實現(xiàn)的數(shù)字服務(wù)。
Ruotsalo接著說:「這就是現(xiàn)在我們在數(shù)字世界中所做的。我們點贊或者點擊鏈接和搜索引擎,只要我們點擊了,它們就認(rèn)為這是里面一定有什么。這就使得在沒有任何明確的行動下也能獲取我們的興趣,所以你其實是從大腦中讀取維基百科的?!?/p>
那么這就意味著當(dāng)人們在閱讀相當(dāng)大小的文本時從他們的思維中提取出興趣信號是可能的。如果你考慮如何在一個人沉浸于某個內(nèi)容時使用定制營銷信息來抓取他的興趣,那么這就有點恐怖了(dystopic)。所以換句話來說,將目標(biāo)廣告真正讀取的是你的意圖,而不只是你的點擊。
Ruotsalo希望未來將技術(shù)應(yīng)用于其他更好的商業(yè)用途。
「例如在有大量的信息需要處理,很多事情需要控制、記憶的工作任務(wù)中,這可以作為一種支持agent類型的軟件,并且標(biāo)記上『這對用戶很重要』,然后能以后提醒用戶:『記得查閱這些你發(fā)現(xiàn)有趣的事情』,」他建議道?!高@樣的用戶建模能在一個真正的信息密集型任務(wù)中自動提取特征是很重要的。
「即使是搜索類型的場景,你正在與你的環(huán)境進(jìn)行交互,在投影機上查看數(shù)字內(nèi)容,我們同樣可以看到你對它的興趣,然后它可以自動檢測并為你注釋或推送個性化內(nèi)容」
「我們已經(jīng)在數(shù)字世界中留下了各種痕跡。我們正在研究過去看過的文檔,并可能會粘貼一些我們以后想要再查看的數(shù)字內(nèi)容,但是所有這些都可以自動記錄。然后,我們表達(dá)的各種偏好,不論是評級還是其他什么,都能用于不同的服務(wù)建模。他補充說:「看來,現(xiàn)在所有這一切都可以通過從大腦中讀裙。
這并不是他們團(tuán)隊第一次參與解決搜索和信息超載問題。Ruotsalo也是構(gòu)建SciNet視覺檢測搜索接口的研究人員,后來由這項技術(shù)成立了一家商業(yè)公司Etsimo。
「信息檢索或推薦是一種過濾問題,所以我們試圖過濾信息,來找到到底什么是有趣的或相關(guān)的。他補充說:「我認(rèn)為這是現(xiàn)在最大的問題之一,所有這些新的系統(tǒng)只是推送我們不一定想要的事情。」