計算機智能的發(fā)展快速而高效。強大的工具迅速更迭,教師的工作效率也顯著提高。其中自動為文章打分的智能軟件便應(yīng)用甚廣。作文是大規(guī)模語言考試中的必備題型。通過作文可以綜合檢測應(yīng)試者運用語言的水平。當(dāng)今的研究人員正努力研發(fā)機器人瞬時為書面文章評分。機器人評分的受益者包含慕課(MOOC)供應(yīng)者,還有那些在標(biāo)準(zhǔn)考試中含有作文測試的地區(qū)等。
關(guān)鍵問題是,計算機能夠像文學(xué)家一樣,識別出作文中微小而關(guān)鍵的那些差別嗎?恰恰是這些微小的差別,區(qū)分出了普通的好文章和卓越精彩文章之間的差異。電腦能否捕捉到書面交流的關(guān)鍵要素,譬如合理性,道德立場,論證能力,和清晰程度?
自動評分的先驅(qū)——埃利斯·佩奇
1966年,計算機體積還很龐大,康涅狄格大學(xué)的研究員埃利斯·佩奇(Ellis Page)就率先開始了對自動評分的研究。計算機在那時是相對新穎的技術(shù),主要用來處理最高級的任務(wù)。在佩奇同齡人眼中,利用計算機進行文本輸入而非計算數(shù)據(jù)更是新奇的想法。在當(dāng)時的環(huán)境下,不管是從實用的角度、還是從經(jīng)濟成本來看,利用計算機給作文評分這個想法都非常得不切實際。與同代的人相比,佩奇是個眼光真正長遠的人。
埃利斯佩奇團隊開發(fā)出第一套作文自動評分系統(tǒng)PEG(Project Essay Grader)。PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是國外最具代表性的三種作文自動評分系統(tǒng)。
國外作文自動評分系統(tǒng)述評
作文自動評分是近三年自然語言處理中的熱點問題。大規(guī)模作文閱卷面臨兩大難題:其一,閱卷需要耗費大量人力、物力等資源;其二,評判作文質(zhì)量具有很強的主觀性,閱卷的信度和效度不強。近幾十年來,隨著計算機硬件和軟件性能快速提高,自然語言處理等技術(shù)獲得了長足的發(fā)展,國外一批作文自動評分系統(tǒng)相繼問世,這兩個長期困擾大規(guī)模作文閱卷的難題有望得到解決。
(一)PEG——一個重語言形式的評分系統(tǒng)
PEG于1966年由美國杜克大學(xué)的Ellis Page等人開發(fā)。PEG的設(shè)計者們認為,計算機程序沒有必要 理解作文內(nèi)容,大規(guī)??荚囍杏绕淙绱?。因此,他們在其網(wǎng)站上公開申明:“PEG 不能理解作文的內(nèi)容”。在PEG的開發(fā)者看來,作文質(zhì)量的諸要素是作文的內(nèi)在因素,無法直接測量,因此,最為合乎邏輯的方法是從作文文本中提取一些能夠間接反映作文質(zhì)量的文本表層特征項。
概括起來,PEG的技術(shù)大體包括兩方面:其一, PEG使用的統(tǒng)計方法是多元線性回歸,以此來確定各變量的beta值,這樣,基于訓(xùn)練集作文而構(gòu)建的統(tǒng)計模型便可以用來為新的作文進行自動評分。這一技術(shù)合理而容易理解,后期出現(xiàn)的作文自動評分系統(tǒng)大多采用這一技術(shù)。其二,自然語言處理技術(shù)是PEG提取變量的主要方法?;谶@兩種技術(shù),PEG取得了很好的評分效果。
(二)IEA——一個重內(nèi)容的評分系統(tǒng)
IEA是一種基于潛伏語義分析的作文自動評分系統(tǒng),由美國科羅拉多大學(xué)的ThomasLandauer等學(xué)者開發(fā)。與PEG顯著不同的是,IEA的設(shè)計者們在其網(wǎng)站上申明:“IEA是唯一能夠測量語義和作文內(nèi)容的程序”。據(jù)IEA的設(shè)計者們報告,潛伏語義分析主要分析文本的內(nèi)容和學(xué)生作文中所傳達的知識,而不是作文的風(fēng)格或語言。
將潛伏語義分析用于學(xué)生作文自動評分時,待評分的作文與預(yù)先選定的范文(訓(xùn)練集)被視作為矢量, 對矢量進行比較之后,可以得到每一篇待評分作文與范文在內(nèi)容上的相似度得分。該得分被直接視為機器評分或經(jīng)過轉(zhuǎn)換后得到機器評分。
(三)E-rater——一個模塊結(jié)構(gòu)的混合評分系統(tǒng)
E-rater是由美國教育考試處于20世紀(jì)90年代開發(fā),其目的是評估GMAT考試中的作文質(zhì)量。據(jù)Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的描述,E-rater自1999 年以來已經(jīng)進入操作階段,至2003年,共評定作文 750,000篇。
E-rater的開發(fā)者們聲稱,他們的作文評分系統(tǒng)利用了多種技術(shù),其中包括統(tǒng)計技術(shù)、矢量空間模型技術(shù)和自然語言處理技術(shù)(Valenti et a.l2003)。憑借這些技術(shù),E-rater不光能夠像PEG那樣評判作文的語言質(zhì)量,還能夠像IEA那樣評判作文的內(nèi)容質(zhì)量。除此之外,E-rater還對作文的篇章結(jié)構(gòu)進行分析。
國內(nèi)主要英語作文自動評價工具軟件
在國內(nèi),業(yè)已頒布的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確指出,信息技術(shù)對教育發(fā)展具有革命性的影響,必須給于高度重視。到2020年,全國范圍內(nèi)應(yīng)該力爭基本建成覆蓋城鄉(xiāng)各級各類學(xué)校的教育信息化體系,以促進教育內(nèi)容、教學(xué)手段和方法現(xiàn)代化。就受眾群體龐大的英語教學(xué)領(lǐng)域而言,國內(nèi)關(guān)于英語作文自動評價系統(tǒng)的研究起步晚,缺乏系統(tǒng)性的綜述研究。
(一)句酷批改網(wǎng)
由北京詞網(wǎng)科技有限公司研發(fā),于2011年4月開始展開大規(guī)模使用。它是一個基于語料庫和云計算技術(shù)的英語作文在線自動批改服務(wù)網(wǎng)站。批改網(wǎng)的核心算法是計算學(xué)生作文和標(biāo)準(zhǔn)語料庫之間的距離,再通過一個映射將距離轉(zhuǎn)化成作文分?jǐn)?shù)和評語。核心技術(shù)點是將每一篇輸入的作文分析成可測量的192個維度,分析過程充分利用了先進的自然語言技術(shù)和機器學(xué)習(xí)的方法,每篇作文先被自動切分成句子,然后對每個句子進行深度的語義分析,從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。主要功能包括:分?jǐn)?shù)即刻顯現(xiàn)、圖文報表式作文分析結(jié)果、錯誤自動批改、點評細致入微、階段性進度報告、抄襲檢測等。
批改網(wǎng)是完全自主研發(fā)的國產(chǎn)軟件,從核心引擎到批改應(yīng)用都是完全自主知識產(chǎn)權(quán)的。它體現(xiàn)寫作教學(xué)的多樣性,鼓勵學(xué)生的自主性學(xué)習(xí)、探索性學(xué)習(xí)、團隊式學(xué)習(xí)、研究型學(xué)習(xí)等教與學(xué)新模式。
(二)冰果英語智能作文評閱系統(tǒng)
杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合浙江大學(xué)、外語教學(xué)與研究出版社,以及中外人工智能專家隊伍,依據(jù)語言教學(xué)理論、計算機網(wǎng)絡(luò)教育技術(shù)、大規(guī)模數(shù)據(jù)挖掘技術(shù),研發(fā)出這一個性化智能化的作文評閱軟件。它可以即時給出作文評分,并從詞匯、語法、文風(fēng)、內(nèi)容等方面給出反饋。但是,該系統(tǒng)目前無法做到用戶同一篇作文多次反復(fù)修改,多次提交給系統(tǒng),并得到系統(tǒng)的即時評閱和反饋。
(三)TRP教學(xué)資源平臺
經(jīng)過對一線教師的調(diào)研及需求分析,高等教育出版社與清華大學(xué)楊永林教授的科研團隊合作研究,2010年10月正式對外發(fā)布了《體驗英語寫作教學(xué)資源平臺》。 2012年3月,該平臺的升級版產(chǎn)品《TRP教學(xué)資源平臺》面世。它根據(jù)寫作教學(xué)需求,將數(shù)字化、網(wǎng)絡(luò)化與區(qū)域化教學(xué)平臺進行了有機的整合,并涵蓋了資源建設(shè)、平臺構(gòu)建、寫作學(xué)習(xí)、句型練習(xí)、語法測驗、作文評分、寫作研究、評語生成、作為考試等功能。為高校英語教學(xué)的進一步改革提供了“專本碩博,四級貫通”的可操作平臺。特別一提的是,學(xué)術(shù)寫作是該寫作軟件系統(tǒng)的特色版塊,從這一點來講,TRP教學(xué)資源平臺似乎對于研究型高校的學(xué)習(xí)者來說具有更加特殊的意義。
國內(nèi)中文作文自動評價工具軟件概述
根據(jù)作文自動評分的原理,可以得到計算機評分的工作機制:首先提取出反映寫作水平的特征,然后利用這些特征和數(shù)學(xué)模型計算出分?jǐn)?shù)。并且確保這個分?jǐn)?shù)最大程度的接近人工評分的結(jié)果。
漢語文字的計算機識別及加工能技術(shù)難題需要計算機領(lǐng)域的專家來攻克,而漢語的計算機自然語言處理技術(shù)有了突飛猛進的發(fā)展。例如由于中文詞語之間沒有空格分割,使用計算機進行分詞是進行自動評分研究需要解決的首要問題。隨著中文自然語言處理研究的發(fā)展,目前這一困難基本得到解決。中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上,研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)不僅完全具備了中文分詞的功能,還有詞性標(biāo)注和未登錄詞識別的功能。ICTCLAS分詞的正確率高達97.58%(最近的973專家組評測結(jié)果)。另外北京大學(xué)、北京語言大學(xué)都有漢語自然語言處理工具成功開發(fā),為漢語作文自動評分研究打下了基礎(chǔ)。
自動評分很好地做到了作文評價的客觀化,可以做到在不同的時間地點,在不同的計算機環(huán)境里面對于同一篇作文的評價結(jié)果完全相同。使用這些系統(tǒng)進行作文評分,不僅提高了作文評價效率、降低了人工成本,而且從根本上消除了評分者之間的不一致。可以說,使用計算機進行自動評分是評價科學(xué)化發(fā)展的必由之路,是提高作文評分準(zhǔn)確性和評分效率的最有效途徑。在美國Erater已經(jīng)成功的在ETS組織的托福等考試中應(yīng)用,而日本Jess研制的目的就是處理日本大學(xué)入試的作文評分。最近臺灣也研發(fā)出了一套“中文寫作自動化評分系統(tǒng)”(ACES),該軟件能自動分析初中基準(zhǔn)測試考生的作文程度,并給于6個等級的評分。
人工與智能,效率與質(zhì)量的較量
當(dāng)今時代,利用計算機自動評分的需求正在猛增。在人工審核流程中,每篇文章必須要有兩名教師打分,這樣的批閱成本很高,含有寫作部分的標(biāo)準(zhǔn)化測試批閱成本也愈發(fā)昂貴。這種高昂的成本已經(jīng)致使許多州在標(biāo)準(zhǔn)考試中,放棄了重要的寫作測試。目前,自動評分系統(tǒng)還處在人機耦合的階段。許多低年級的標(biāo)準(zhǔn)化考試使用自動評分系統(tǒng),已經(jīng)帶來不錯的收效。然而,孩子們的命運并非完全掌握在計算機手中。大多數(shù)情況下,在標(biāo)準(zhǔn)化測試中,機器人評分員只是取代了其中一位必要的評分員。如果自動評分員的意見截然不同,這樣的文章就會被標(biāo)記,并轉(zhuǎn)發(fā)給另一位人工評分員作進一步評估。這個步驟的目的是保證評估質(zhì)量,同時也有助于提高自動評分技能。
EdX總裁Anant Agarwal稱,智能自動評分的優(yōu)點不僅僅是能節(jié)省寶貴的時間。新技術(shù)所實現(xiàn)的即時反饋對學(xué)習(xí)也有積極影響。當(dāng)今,人工給作文評分要花費好幾天、甚至是好幾周的時間才能完成,但是有了即時反饋,學(xué)生對自己的文章記憶猶新,可以立即彌補弱項,而且效率更高。
機器學(xué)習(xí)軟件剛開始應(yīng)用時,教師必須將已經(jīng)評好的幾篇文章輸入系統(tǒng),作為好文章和壞文章的示例。隨著越來越多文章輸入,軟件就越來越擅長這種評分工作,最終幾乎就能提供專門的即時反饋。Anant Agarwal稱,需要做的工作還有很多,不過自動評分的質(zhì)量已經(jīng)很快接近真正教師的評分。隨著更多學(xué)校的參與,EdX系統(tǒng)的發(fā)展越來越快。截至今天,已有11所重點大學(xué)對這款不斷發(fā)展的評分軟件貢獻了力量。
自動評分的應(yīng)用效果及發(fā)展前景
為了改善這種趨勢,2012年,威廉和弗洛拉休利特基金會(William and Flora Hewlett Foundation)贊助了一項自動評分的競賽,以數(shù)千篇作文為樣本,用六萬美金作為獎勵,鼓勵能智能取代教師評分的最佳方案。休利特基金會教育項目負責(zé)人芭芭拉·周表示:“我們聽說機器算法已經(jīng)達到和人工評分同樣的水平,但我們希望創(chuàng)建一個中立且公平的平臺來評估供應(yīng)商的各種聲明。事實證明,那些說法并非炒作。”
自動評分的發(fā)展也吸引了慕課供應(yīng)商的極大興趣。影響線上教育普及的最大問題之一就在于個人評估文章。一位教師可以為5000名學(xué)生提供授課資源,但卻不能對每位學(xué)生單獨進行評估。有人說現(xiàn)行教育體制已不完善,而解決這一問題正是向打破這種體制所邁出的一大步。在過去短短幾年中,評分軟件的發(fā)展突飛猛進,現(xiàn)在的評分軟件已可以在大學(xué)中上線測試使用。其中一個領(lǐng)先者就是慕課供應(yīng)商EdX,同時也是哈佛和麻省理工旨在提高線上教育的聯(lián)合發(fā)起者。
休斯頓大學(xué)大學(xué)教育學(xué)院院長Mark Shermis教授被視為世界上自動評分領(lǐng)域的頂尖專家之一。在2012年,他指導(dǎo)了休利特競賽,對參賽者的表現(xiàn)印象非常深刻。154個團隊參加了競賽,一萬六千多篇文章拿來做了對比。冠軍團隊與人工評分者的一致度高達81%。Shermis的意見非常積極,他表示這項技術(shù)肯定會在未來的教育中占據(jù)一席之地。從這次比賽以來,自動評分領(lǐng)域的研究已經(jīng)取得了積極進展。
自動評分目前仍有幾項瓶頸和技術(shù)局限(一)評分標(biāo)準(zhǔn)未統(tǒng)一
自動評分系統(tǒng)還沒有科學(xué)深入地研究人類分級機之間的評估差異,且個體間的差異性很可能非常大。很明顯的是,從最初主要依賴計算字?jǐn)?shù)、檢測句子和單詞復(fù)雜性和結(jié)構(gòu)的簡單工具,自動分級技術(shù)蒸蒸日上,有了很大的進展。
自動作文評分系統(tǒng)供應(yīng)商是如何提出各種算法的這一問題深深隱藏于知識產(chǎn)權(quán)規(guī)章背后。然而,萊斯·派勒爾曼(Les Perelman),長期懷疑論者和麻省理工學(xué)院前本科生論文處主任有了一些答案。他花費十年時間用各種方法惡搞不同的自動分級軟件,并且在某種程度上發(fā)動了一場有關(guān)全面抵制這些系統(tǒng)的運動。分級軟件必須將不同文章進行比較,區(qū)分重點與非重點部分,然后將文章壓縮至一個數(shù)字以進行評級。相應(yīng)的,文章必須是在一個完全不同的主題下與不同文章具有可比性。谷歌在比較不同目標(biāo)文本和圖片與不同搜索術(shù)語的匹配度時使用了相似的策略。問題在于谷歌應(yīng)用了數(shù)百萬數(shù)據(jù)樣本進行估值。而一所學(xué)校最多只能輸入幾千篇文章。只有擁有龐大的數(shù)據(jù)庫,這個問題才能逐漸得到解決。
(二)基于規(guī)則的弊端
由于計算機無法讀取,解決過度擬合最可行的方法是為計算機明確指定一套具體的規(guī)則,來檢測文本是否講得通。這一方法在其他軟件上都行得通。目前,自動評級供應(yīng)商大量投入來制定這樣的規(guī)則,因為要制定出一條檢測諸如論文這樣創(chuàng)造性文本質(zhì)量的規(guī)則十分困難。計算機傾向于用常見的方式解決問題:計算。
在自動評分系統(tǒng)中,例如,評分預(yù)測器可以是句子長度、單詞數(shù)量、動詞數(shù)量、復(fù)雜單詞的數(shù)量等。這些規(guī)則是否能做出合理的評估?至少派勒爾曼不這樣認為。他說,預(yù)測規(guī)則通常非常死板局限,限制了評估的質(zhì)量。例如,他發(fā)現(xiàn):
—長篇文章的評級會比短篇的評級高(自動評級倡導(dǎo)者馬克舍米斯教授認為這只是個巧合。)
—同復(fù)雜思想相關(guān)的具體詞匯,例如“并且”“然而”,都會使文章得到更高的評級。
—使用“貪婪”這種復(fù)雜詞匯會比使用“貪心”這種簡單詞匯評級高。
他發(fā)現(xiàn)規(guī)則很難應(yīng)用或者根本沒有應(yīng)用的另一些例子是這個軟件不能分辨真實性。
(三)信度和效度有待提高
作文自動評分的目的是利用多學(xué)科技術(shù)有效地模擬人工評分,以達到快速評定作文質(zhì)量的目的。因此,在對計算機評分模型進行訓(xùn)練時,訓(xùn)練集作文人工評分的信度至關(guān)重要。只有有效地模擬具有較高信度的人工評分,計算機評分才有意義。根據(jù)Barrett(2001)和Stemler(2004)的研究,評分員間的信度達到r=0.70左右才是可以接受的,但現(xiàn)有作文評分系統(tǒng)在對訓(xùn)練集作文進行人工評分時常常達不到這樣的信度要求,可能使得計算機評分模型很難模擬到人工評分的精髓。
評價對學(xué)生作文的評分是否合理,所需考察的另一個方面是評分的效度。對作文進行評分一般至少需要從作文的語言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量三個主要方面對作文的整體質(zhì)量加以衡量。自動評分系統(tǒng)在評分過程中并未能夠很好地兼顧這三個主要方面,因而評分的結(jié)構(gòu)效度值得質(zhì)疑。PEG雖然對作文的語言質(zhì)量有著較強的分析能力,但忽略了作文的內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,因而其評分結(jié)果存在較大的效度問題。與此相類似,IEA突出了評分過程中作文內(nèi)容的重要性,但忽略了作文的語言質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,顯然也存在較大的效度問題。與這兩種系統(tǒng)相比,E-rater雖然以其模塊結(jié)構(gòu)兼顧了作文質(zhì)量的三個主要方面,但每個模塊的分析能力尚可進一步提高。