解放教師!給作文評(píng)分也能交給機(jī)器?
計(jì)算機(jī)智能的發(fā)展快速而高效。強(qiáng)大的工具迅速更迭,教師的工作效率也顯著提高。其中自動(dòng)為文章打分的智能軟件便應(yīng)用甚廣。作文是大規(guī)模語言考試中的必備題型。通過作文可以綜合檢測(cè)應(yīng)試者運(yùn)用語言的水平。當(dāng)今的研究人員正努力研發(fā)機(jī)器人瞬時(shí)為書面文章評(píng)分。機(jī)器人評(píng)分的受益者包含慕課(MOOC)供應(yīng)者,還有那些在標(biāo)準(zhǔn)考試中含有作文測(cè)試的地區(qū)等。
關(guān)鍵問題是,計(jì)算機(jī)能夠像文學(xué)家一樣,識(shí)別出作文中微小而關(guān)鍵的那些差別嗎?恰恰是這些微小的差別,區(qū)分出了普通的好文章和卓越精彩文章之間的差異。電腦能否捕捉到書面交流的關(guān)鍵要素,譬如合理性,道德立場(chǎng),論證能力,和清晰程度?
自動(dòng)評(píng)分的先驅(qū)——埃利斯·佩奇
1966年,計(jì)算機(jī)體積還很龐大,康涅狄格大學(xué)的研究員埃利斯·佩奇(Ellis Page)就率先開始了對(duì)自動(dòng)評(píng)分的研究。計(jì)算機(jī)在那時(shí)是相對(duì)新穎的技術(shù),主要用來處理最高級(jí)的任務(wù)。在佩奇同齡人眼中,利用計(jì)算機(jī)進(jìn)行文本輸入而非計(jì)算數(shù)據(jù)更是新奇的想法。在當(dāng)時(shí)的環(huán)境下,不管是從實(shí)用的角度、還是從經(jīng)濟(jì)成本來看,利用計(jì)算機(jī)給作文評(píng)分這個(gè)想法都非常得不切實(shí)際。與同代的人相比,佩奇是個(gè)眼光真正長(zhǎng)遠(yuǎn)的人。
埃利斯佩奇團(tuán)隊(duì)開發(fā)出第一套作文自動(dòng)評(píng)分系統(tǒng)PEG(Project Essay Grader)。PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是國(guó)外最具代表性的三種作文自動(dòng)評(píng)分系統(tǒng)。
國(guó)外作文自動(dòng)評(píng)分系統(tǒng)述評(píng)
作文自動(dòng)評(píng)分是近三年自然語言處理中的熱點(diǎn)問題。大規(guī)模作文閱卷面臨兩大難題:其一,閱卷需要耗費(fèi)大量人力、物力等資源;其二,評(píng)判作文質(zhì)量具有很強(qiáng)的主觀性,閱卷的信度和效度不強(qiáng)。近幾十年來,隨著計(jì)算機(jī)硬件和軟件性能快速提高,自然語言處理等技術(shù)獲得了長(zhǎng)足的發(fā)展,國(guó)外一批作文自動(dòng)評(píng)分系統(tǒng)相繼問世,這兩個(gè)長(zhǎng)期困擾大規(guī)模作文閱卷的難題有望得到解決。
(一)PEG——一個(gè)重語言形式的評(píng)分系統(tǒng)
PEG于1966年由美國(guó)杜克大學(xué)的Ellis Page等人開發(fā)。PEG的設(shè)計(jì)者們認(rèn)為,計(jì)算機(jī)程序沒有必要 理解作文內(nèi)容,大規(guī)模考試中尤其如此。因此,他們?cè)谄渚W(wǎng)站上公開申明:“PEG 不能理解作文的內(nèi)容”。在PEG的開發(fā)者看來,作文質(zhì)量的諸要素是作文的內(nèi)在因素,無法直接測(cè)量,因此,最為合乎邏輯的方法是從作文文本中提取一些能夠間接反映作文質(zhì)量的文本表層特征項(xiàng)。
概括起來,PEG的技術(shù)大體包括兩方面:其一, PEG使用的統(tǒng)計(jì)方法是多元線性回歸,以此來確定各變量的beta值,這樣,基于訓(xùn)練集作文而構(gòu)建的統(tǒng)計(jì)模型便可以用來為新的作文進(jìn)行自動(dòng)評(píng)分。這一技術(shù)合理而容易理解,后期出現(xiàn)的作文自動(dòng)評(píng)分系統(tǒng)大多采用這一技術(shù)。其二,自然語言處理技術(shù)是PEG提取變量的主要方法?;谶@兩種技術(shù),PEG取得了很好的評(píng)分效果。
(二)IEA——一個(gè)重內(nèi)容的評(píng)分系統(tǒng)
IEA是一種基于潛伏語義分析的作文自動(dòng)評(píng)分系統(tǒng),由美國(guó)科羅拉多大學(xué)的ThomasLandauer等學(xué)者開發(fā)。與PEG顯著不同的是,IEA的設(shè)計(jì)者們?cè)谄渚W(wǎng)站上申明:“IEA是唯一能夠測(cè)量語義和作文內(nèi)容的程序”。據(jù)IEA的設(shè)計(jì)者們報(bào)告,潛伏語義分析主要分析文本的內(nèi)容和學(xué)生作文中所傳達(dá)的知識(shí),而不是作文的風(fēng)格或語言。
將潛伏語義分析用于學(xué)生作文自動(dòng)評(píng)分時(shí),待評(píng)分的作文與預(yù)先選定的范文(訓(xùn)練集)被視作為矢量, 對(duì)矢量進(jìn)行比較之后,可以得到每一篇待評(píng)分作文與范文在內(nèi)容上的相似度得分。該得分被直接視為機(jī)器評(píng)分或經(jīng)過轉(zhuǎn)換后得到機(jī)器評(píng)分。
(三)E-rater——一個(gè)模塊結(jié)構(gòu)的混合評(píng)分系統(tǒng)
E-rater是由美國(guó)教育考試處于20世紀(jì)90年代開發(fā),其目的是評(píng)估GMAT考試中的作文質(zhì)量。據(jù)Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的描述,E-rater自1999 年以來已經(jīng)進(jìn)入操作階段,至2003年,共評(píng)定作文 750,000篇。
E-rater的開發(fā)者們聲稱,他們的作文評(píng)分系統(tǒng)利用了多種技術(shù),其中包括統(tǒng)計(jì)技術(shù)、矢量空間模型技術(shù)和自然語言處理技術(shù)(Valenti et a.l2003)。憑借這些技術(shù),E-rater不光能夠像PEG那樣評(píng)判作文的語言質(zhì)量,還能夠像IEA那樣評(píng)判作文的內(nèi)容質(zhì)量。除此之外,E-rater還對(duì)作文的篇章結(jié)構(gòu)進(jìn)行分析。
國(guó)內(nèi)主要英語作文自動(dòng)評(píng)價(jià)工具軟件
在國(guó)內(nèi),業(yè)已頒布的《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確指出,信息技術(shù)對(duì)教育發(fā)展具有革命性的影響,必須給于高度重視。到2020年,全國(guó)范圍內(nèi)應(yīng)該力爭(zhēng)基本建成覆蓋城鄉(xiāng)各級(jí)各類學(xué)校的教育信息化體系,以促進(jìn)教育內(nèi)容、教學(xué)手段和方法現(xiàn)代化。就受眾群體龐大的英語教學(xué)領(lǐng)域而言,國(guó)內(nèi)關(guān)于英語作文自動(dòng)評(píng)價(jià)系統(tǒng)的研究起步晚,缺乏系統(tǒng)性的綜述研究。
(一)句酷批改網(wǎng)
由北京詞網(wǎng)科技有限公司研發(fā),于2011年4月開始展開大規(guī)模使用。它是一個(gè)基于語料庫(kù)和云計(jì)算技術(shù)的英語作文在線自動(dòng)批改服務(wù)網(wǎng)站。批改網(wǎng)的核心算法是計(jì)算學(xué)生作文和標(biāo)準(zhǔn)語料庫(kù)之間的距離,再通過一個(gè)映射將距離轉(zhuǎn)化成作文分?jǐn)?shù)和評(píng)語。核心技術(shù)點(diǎn)是將每一篇輸入的作文分析成可測(cè)量的192個(gè)維度,分析過程充分利用了先進(jìn)的自然語言技術(shù)和機(jī)器學(xué)習(xí)的方法,每篇作文先被自動(dòng)切分成句子,然后對(duì)每個(gè)句子進(jìn)行深度的語義分析,從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。主要功能包括:分?jǐn)?shù)即刻顯現(xiàn)、圖文報(bào)表式作文分析結(jié)果、錯(cuò)誤自動(dòng)批改、點(diǎn)評(píng)細(xì)致入微、階段性進(jìn)度報(bào)告、抄襲檢測(cè)等。
批改網(wǎng)是完全自主研發(fā)的國(guó)產(chǎn)軟件,從核心引擎到批改應(yīng)用都是完全自主知識(shí)產(chǎn)權(quán)的。它體現(xiàn)寫作教學(xué)的多樣性,鼓勵(lì)學(xué)生的自主性學(xué)習(xí)、探索性學(xué)習(xí)、團(tuán)隊(duì)式學(xué)習(xí)、研究型學(xué)習(xí)等教與學(xué)新模式。
(二)冰果英語智能作文評(píng)閱系統(tǒng)
杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合浙江大學(xué)、外語教學(xué)與研究出版社,以及中外人工智能專家隊(duì)伍,依據(jù)語言教學(xué)理論、計(jì)算機(jī)網(wǎng)絡(luò)教育技術(shù)、大規(guī)模數(shù)據(jù)挖掘技術(shù),研發(fā)出這一個(gè)性化智能化的作文評(píng)閱軟件。它可以即時(shí)給出作文評(píng)分,并從詞匯、語法、文風(fēng)、內(nèi)容等方面給出反饋。但是,該系統(tǒng)目前無法做到用戶同一篇作文多次反復(fù)修改,多次提交給系統(tǒng),并得到系統(tǒng)的即時(shí)評(píng)閱和反饋。
(三)TRP教學(xué)資源平臺(tái)
經(jīng)過對(duì)一線教師的調(diào)研及需求分析,高等教育出版社與清華大學(xué)楊永林教授的科研團(tuán)隊(duì)合作研究,2010年10月正式對(duì)外發(fā)布了《體驗(yàn)英語寫作教學(xué)資源平臺(tái)》。 2012年3月,該平臺(tái)的升級(jí)版產(chǎn)品《TRP教學(xué)資源平臺(tái)》面世。它根據(jù)寫作教學(xué)需求,將數(shù)字化、網(wǎng)絡(luò)化與區(qū)域化教學(xué)平臺(tái)進(jìn)行了有機(jī)的整合,并涵蓋了資源建設(shè)、平臺(tái)構(gòu)建、寫作學(xué)習(xí)、句型練習(xí)、語法測(cè)驗(yàn)、作文評(píng)分、寫作研究、評(píng)語生成、作為考試等功能。為高校英語教學(xué)的進(jìn)一步改革提供了“專本碩博,四級(jí)貫通”的可操作平臺(tái)。特別一提的是,學(xué)術(shù)寫作是該寫作軟件系統(tǒng)的特色版塊,從這一點(diǎn)來講,TRP教學(xué)資源平臺(tái)似乎對(duì)于研究型高校的學(xué)習(xí)者來說具有更加特殊的意義。
國(guó)內(nèi)中文作文自動(dòng)評(píng)價(jià)工具軟件概述
根據(jù)作文自動(dòng)評(píng)分的原理,可以得到計(jì)算機(jī)評(píng)分的工作機(jī)制:首先提取出反映寫作水平的特征,然后利用這些特征和數(shù)學(xué)模型計(jì)算出分?jǐn)?shù)。并且確保這個(gè)分?jǐn)?shù)最大程度的接近人工評(píng)分的結(jié)果。
漢語文字的計(jì)算機(jī)識(shí)別及加工能技術(shù)難題需要計(jì)算機(jī)領(lǐng)域的專家來攻克,而漢語的計(jì)算機(jī)自然語言處理技術(shù)有了突飛猛進(jìn)的發(fā)展。例如由于中文詞語之間沒有空格分割,使用計(jì)算機(jī)進(jìn)行分詞是進(jìn)行自動(dòng)評(píng)分研究需要解決的首要問題。隨著中文自然語言處理研究的發(fā)展,目前這一困難基本得到解決。中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)不僅完全具備了中文分詞的功能,還有詞性標(biāo)注和未登錄詞識(shí)別的功能。ICTCLAS分詞的正確率高達(dá)97.58%(最近的973專家組評(píng)測(cè)結(jié)果)。另外北京大學(xué)、北京語言大學(xué)都有漢語自然語言處理工具成功開發(fā),為漢語作文自動(dòng)評(píng)分研究打下了基礎(chǔ)。
自動(dòng)評(píng)分很好地做到了作文評(píng)價(jià)的客觀化,可以做到在不同的時(shí)間地點(diǎn),在不同的計(jì)算機(jī)環(huán)境里面對(duì)于同一篇作文的評(píng)價(jià)結(jié)果完全相同。使用這些系統(tǒng)進(jìn)行作文評(píng)分,不僅提高了作文評(píng)價(jià)效率、降低了人工成本,而且從根本上消除了評(píng)分者之間的不一致??梢哉f,使用計(jì)算機(jī)進(jìn)行自動(dòng)評(píng)分是評(píng)價(jià)科學(xué)化發(fā)展的必由之路,是提高作文評(píng)分準(zhǔn)確性和評(píng)分效率的最有效途徑。在美國(guó)Erater已經(jīng)成功的在ETS組織的托福等考試中應(yīng)用,而日本Jess研制的目的就是處理日本大學(xué)入試的作文評(píng)分。最近臺(tái)灣也研發(fā)出了一套“中文寫作自動(dòng)化評(píng)分系統(tǒng)”(ACES),該軟件能自動(dòng)分析初中基準(zhǔn)測(cè)試考生的作文程度,并給于6個(gè)等級(jí)的評(píng)分。
人工與智能,效率與質(zhì)量的較量
當(dāng)今時(shí)代,利用計(jì)算機(jī)自動(dòng)評(píng)分的需求正在猛增。在人工審核流程中,每篇文章必須要有兩名教師打分,這樣的批閱成本很高,含有寫作部分的標(biāo)準(zhǔn)化測(cè)試批閱成本也愈發(fā)昂貴。這種高昂的成本已經(jīng)致使許多州在標(biāo)準(zhǔn)考試中,放棄了重要的寫作測(cè)試。目前,自動(dòng)評(píng)分系統(tǒng)還處在人機(jī)耦合的階段。許多低年級(jí)的標(biāo)準(zhǔn)化考試使用自動(dòng)評(píng)分系統(tǒng),已經(jīng)帶來不錯(cuò)的收效。然而,孩子們的命運(yùn)并非完全掌握在計(jì)算機(jī)手中。大多數(shù)情況下,在標(biāo)準(zhǔn)化測(cè)試中,機(jī)器人評(píng)分員只是取代了其中一位必要的評(píng)分員。如果自動(dòng)評(píng)分員的意見截然不同,這樣的文章就會(huì)被標(biāo)記,并轉(zhuǎn)發(fā)給另一位人工評(píng)分員作進(jìn)一步評(píng)估。這個(gè)步驟的目的是保證評(píng)估質(zhì)量,同時(shí)也有助于提高自動(dòng)評(píng)分技能。
EdX總裁Anant Agarwal稱,智能自動(dòng)評(píng)分的優(yōu)點(diǎn)不僅僅是能節(jié)省寶貴的時(shí)間。新技術(shù)所實(shí)現(xiàn)的即時(shí)反饋對(duì)學(xué)習(xí)也有積極影響。當(dāng)今,人工給作文評(píng)分要花費(fèi)好幾天、甚至是好幾周的時(shí)間才能完成,但是有了即時(shí)反饋,學(xué)生對(duì)自己的文章記憶猶新,可以立即彌補(bǔ)弱項(xiàng),而且效率更高。
機(jī)器學(xué)習(xí)軟件剛開始應(yīng)用時(shí),教師必須將已經(jīng)評(píng)好的幾篇文章輸入系統(tǒng),作為好文章和壞文章的示例。隨著越來越多文章輸入,軟件就越來越擅長(zhǎng)這種評(píng)分工作,最終幾乎就能提供專門的即時(shí)反饋。Anant Agarwal稱,需要做的工作還有很多,不過自動(dòng)評(píng)分的質(zhì)量已經(jīng)很快接近真正教師的評(píng)分。隨著更多學(xué)校的參與,EdX系統(tǒng)的發(fā)展越來越快。截至今天,已有11所重點(diǎn)大學(xué)對(duì)這款不斷發(fā)展的評(píng)分軟件貢獻(xiàn)了力量。
自動(dòng)評(píng)分的應(yīng)用效果及發(fā)展前景
為了改善這種趨勢(shì),2012年,威廉和弗洛拉休利特基金會(huì)(William and Flora Hewlett Foundation)贊助了一項(xiàng)自動(dòng)評(píng)分的競(jìng)賽,以數(shù)千篇作文為樣本,用六萬美金作為獎(jiǎng)勵(lì),鼓勵(lì)能智能取代教師評(píng)分的最佳方案。休利特基金會(huì)教育項(xiàng)目負(fù)責(zé)人芭芭拉·周表示:“我們聽說機(jī)器算法已經(jīng)達(dá)到和人工評(píng)分同樣的水平,但我們希望創(chuàng)建一個(gè)中立且公平的平臺(tái)來評(píng)估供應(yīng)商的各種聲明。事實(shí)證明,那些說法并非炒作?!?/p>
自動(dòng)評(píng)分的發(fā)展也吸引了慕課供應(yīng)商的極大興趣。影響線上教育普及的最大問題之一就在于個(gè)人評(píng)估文章。一位教師可以為5000名學(xué)生提供授課資源,但卻不能對(duì)每位學(xué)生單獨(dú)進(jìn)行評(píng)估。有人說現(xiàn)行教育體制已不完善,而解決這一問題正是向打破這種體制所邁出的一大步。在過去短短幾年中,評(píng)分軟件的發(fā)展突飛猛進(jìn),現(xiàn)在的評(píng)分軟件已可以在大學(xué)中上線測(cè)試使用。其中一個(gè)領(lǐng)先者就是慕課供應(yīng)商EdX,同時(shí)也是哈佛和麻省理工旨在提高線上教育的聯(lián)合發(fā)起者。
休斯頓大學(xué)大學(xué)教育學(xué)院院長(zhǎng)Mark Shermis教授被視為世界上自動(dòng)評(píng)分領(lǐng)域的頂尖專家之一。在2012年,他指導(dǎo)了休利特競(jìng)賽,對(duì)參賽者的表現(xiàn)印象非常深刻。154個(gè)團(tuán)隊(duì)參加了競(jìng)賽,一萬六千多篇文章拿來做了對(duì)比。冠軍團(tuán)隊(duì)與人工評(píng)分者的一致度高達(dá)81%。Shermis的意見非常積極,他表示這項(xiàng)技術(shù)肯定會(huì)在未來的教育中占據(jù)一席之地。從這次比賽以來,自動(dòng)評(píng)分領(lǐng)域的研究已經(jīng)取得了積極進(jìn)展。
自動(dòng)評(píng)分目前仍有幾項(xiàng)瓶頸和技術(shù)局限(一)評(píng)分標(biāo)準(zhǔn)未統(tǒng)一
自動(dòng)評(píng)分系統(tǒng)還沒有科學(xué)深入地研究人類分級(jí)機(jī)之間的評(píng)估差異,且個(gè)體間的差異性很可能非常大。很明顯的是,從最初主要依賴計(jì)算字?jǐn)?shù)、檢測(cè)句子和單詞復(fù)雜性和結(jié)構(gòu)的簡(jiǎn)單工具,自動(dòng)分級(jí)技術(shù)蒸蒸日上,有了很大的進(jìn)展。
自動(dòng)作文評(píng)分系統(tǒng)供應(yīng)商是如何提出各種算法的這一問題深深隱藏于知識(shí)產(chǎn)權(quán)規(guī)章背后。然而,萊斯·派勒爾曼(Les Perelman),長(zhǎng)期懷疑論者和麻省理工學(xué)院前本科生論文處主任有了一些答案。他花費(fèi)十年時(shí)間用各種方法惡搞不同的自動(dòng)分級(jí)軟件,并且在某種程度上發(fā)動(dòng)了一場(chǎng)有關(guān)全面抵制這些系統(tǒng)的運(yùn)動(dòng)。分級(jí)軟件必須將不同文章進(jìn)行比較,區(qū)分重點(diǎn)與非重點(diǎn)部分,然后將文章壓縮至一個(gè)數(shù)字以進(jìn)行評(píng)級(jí)。相應(yīng)的,文章必須是在一個(gè)完全不同的主題下與不同文章具有可比性。谷歌在比較不同目標(biāo)文本和圖片與不同搜索術(shù)語的匹配度時(shí)使用了相似的策略。問題在于谷歌應(yīng)用了數(shù)百萬數(shù)據(jù)樣本進(jìn)行估值。而一所學(xué)校最多只能輸入幾千篇文章。只有擁有龐大的數(shù)據(jù)庫(kù),這個(gè)問題才能逐漸得到解決。
(二)基于規(guī)則的弊端
由于計(jì)算機(jī)無法讀取,解決過度擬合最可行的方法是為計(jì)算機(jī)明確指定一套具體的規(guī)則,來檢測(cè)文本是否講得通。這一方法在其他軟件上都行得通。目前,自動(dòng)評(píng)級(jí)供應(yīng)商大量投入來制定這樣的規(guī)則,因?yàn)橐贫ǔ鲆粭l檢測(cè)諸如論文這樣創(chuàng)造性文本質(zhì)量的規(guī)則十分困難。計(jì)算機(jī)傾向于用常見的方式解決問題:計(jì)算。
在自動(dòng)評(píng)分系統(tǒng)中,例如,評(píng)分預(yù)測(cè)器可以是句子長(zhǎng)度、單詞數(shù)量、動(dòng)詞數(shù)量、復(fù)雜單詞的數(shù)量等。這些規(guī)則是否能做出合理的評(píng)估?至少派勒爾曼不這樣認(rèn)為。他說,預(yù)測(cè)規(guī)則通常非常死板局限,限制了評(píng)估的質(zhì)量。例如,他發(fā)現(xiàn):
—長(zhǎng)篇文章的評(píng)級(jí)會(huì)比短篇的評(píng)級(jí)高(自動(dòng)評(píng)級(jí)倡導(dǎo)者馬克舍米斯教授認(rèn)為這只是個(gè)巧合。)
—同復(fù)雜思想相關(guān)的具體詞匯,例如“并且”“然而”,都會(huì)使文章得到更高的評(píng)級(jí)。
—使用“貪婪”這種復(fù)雜詞匯會(huì)比使用“貪心”這種簡(jiǎn)單詞匯評(píng)級(jí)高。
他發(fā)現(xiàn)規(guī)則很難應(yīng)用或者根本沒有應(yīng)用的另一些例子是這個(gè)軟件不能分辨真實(shí)性。
(三)信度和效度有待提高
作文自動(dòng)評(píng)分的目的是利用多學(xué)科技術(shù)有效地模擬人工評(píng)分,以達(dá)到快速評(píng)定作文質(zhì)量的目的。因此,在對(duì)計(jì)算機(jī)評(píng)分模型進(jìn)行訓(xùn)練時(shí),訓(xùn)練集作文人工評(píng)分的信度至關(guān)重要。只有有效地模擬具有較高信度的人工評(píng)分,計(jì)算機(jī)評(píng)分才有意義。根據(jù)Barrett(2001)和Stemler(2004)的研究,評(píng)分員間的信度達(dá)到r=0.70左右才是可以接受的,但現(xiàn)有作文評(píng)分系統(tǒng)在對(duì)訓(xùn)練集作文進(jìn)行人工評(píng)分時(shí)常常達(dá)不到這樣的信度要求,可能使得計(jì)算機(jī)評(píng)分模型很難模擬到人工評(píng)分的精髓。
評(píng)價(jià)對(duì)學(xué)生作文的評(píng)分是否合理,所需考察的另一個(gè)方面是評(píng)分的效度。對(duì)作文進(jìn)行評(píng)分一般至少需要從作文的語言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量三個(gè)主要方面對(duì)作文的整體質(zhì)量加以衡量。自動(dòng)評(píng)分系統(tǒng)在評(píng)分過程中并未能夠很好地兼顧這三個(gè)主要方面,因而評(píng)分的結(jié)構(gòu)效度值得質(zhì)疑。PEG雖然對(duì)作文的語言質(zhì)量有著較強(qiáng)的分析能力,但忽略了作文的內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,因而其評(píng)分結(jié)果存在較大的效度問題。與此相類似,IEA突出了評(píng)分過程中作文內(nèi)容的重要性,但忽略了作文的語言質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,顯然也存在較大的效度問題。與這兩種系統(tǒng)相比,E-rater雖然以其模塊結(jié)構(gòu)兼顧了作文質(zhì)量的三個(gè)主要方面,但每個(gè)模塊的分析能力尚可進(jìn)一步提高。