如何讓大數(shù)據和教育結合在一起
隨著云時代的來臨,大數(shù)據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數(shù)據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據和半結構化數(shù)據,這些數(shù)據在下載到關系型數(shù)據庫用于分析時會花費過多時間和金錢。大數(shù)據分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
數(shù)據(data),一般而言是指通過科學實驗、檢驗、統(tǒng)計等方式所獲得的,用于科學研究、技術設計、查證、決策等目的的數(shù)值。通過全面、準確、系統(tǒng)地測量、收集、記錄、分類、存儲這些數(shù)據,再經過嚴格地統(tǒng)計、分析、檢驗這些數(shù)據,就能得出一些很有說服力的結論。大規(guī)模、長期地測量、記錄、存儲、統(tǒng)計、分析這些數(shù)據,所獲得的海量數(shù)據就是大數(shù)據(big data)。在制作大數(shù)據時,需要嚴格的方案設計、變量控制和統(tǒng)計檢驗等,不然所獲得的大數(shù)據就是不全面、不準確、無價值或價值不大的。
在教育特別是在學校教育中,數(shù)據成為教學改進最為顯著的指標。通常,這些數(shù)據主要是指考試成績。當然,也可以包括入學率、出勤率、輟學率、升學率等。對于具體的課堂教學來說,數(shù)據應該是能說明教學效果的,比如學生識字的準確率、作業(yè)的正確率、多方面發(fā)展的表現(xiàn)率——積極參與課堂科學的舉手次數(shù),回答問題的次數(shù)、時長與正確率,師生互動的頻率與時長。進一步具體來說,例如每個學生回答一個問題所用的時間是多長,不同學生在同一問題上所用時長的區(qū)別有多大,整體回答的正確率是多少,這些具體的數(shù)據經過專門的收集、分類、整理、統(tǒng)計、分析就成為大數(shù)據。
大數(shù)據如何應用在教育領域。中琛魔方大數(shù)據分析平臺表示通過大數(shù)據進行學習分析能夠為每一位學生都創(chuàng)設一個量身定做的學習環(huán)境和個性化的課程,還能創(chuàng)建一個早期預警系統(tǒng)以便發(fā)現(xiàn)開除和輟學等潛在的風險,為學生的多年學習提供一個富有挑戰(zhàn)性而非逐漸厭倦的學習計劃。因此,有識之士經預言未來的學習將是大數(shù)據驅動的新時代。我們應該積極迎接這個新時代,通過大數(shù)據來分析學習,進一步改善教學的方式與方法,進一步促進學生學習成績的提高。
分析大數(shù)據助力教學改革
近年來,隨著大數(shù)據成為互聯(lián)網信息技術行業(yè)的流行詞匯,教育逐漸被認為是大數(shù)據可以大有作為的一個重要應用領域,有人大膽地預測大數(shù)據將給教育帶來革命性的變化。大數(shù)據技術允許中小學和大學分析從學生的學習行為、考試分數(shù)到職業(yè)規(guī)劃等所有重要的信息。許多這樣的數(shù)據已經被諸如美國國家教育統(tǒng)計中心之類的政府機構儲存起來用于統(tǒng)計和分析。而近年來越來越多的網絡在線教育和大規(guī)模開放式網絡課程橫空出世,也使教育領域中的大數(shù)據獲得了更為廣闊的應用空間。專家指出,大數(shù)據將掀起新的教育革命,比如革新學生的學習、教師的教學、教育政策制定的方式與方法。
教育領域中的大數(shù)據分析最終目的是為了改善學生的學習成績。成績優(yōu)異的學生對學校、對社會、以及對國家來說都是好事。學生的作業(yè)和考試中有一系列重要的信息往往被我們常規(guī)的研究所忽視。而通過分析大數(shù)據,我們就能發(fā)現(xiàn)這些重要信息,并利用它們?yōu)楦纳茖W生的成績提供個性化的服務。與此同時,它還能改善學生期末考試的成績、平時的出勤率、輟學率、升學率等。
現(xiàn)在,大數(shù)據分析已經被應用到美國的公共教育中,成為教學改革的重要力量。為了順應并推動這一趨勢,美國聯(lián)邦政府教育部2012年參與了一項耗資2億美元的公共教育中的大數(shù)據計劃。這一計劃旨在通過運用大數(shù)據分析來改善教育。聯(lián)邦教育部從財政預算中支出2500萬美元,用于理解學生在個性化層面是怎樣學習的。部分綜述了該計劃的數(shù)據和案例已經在美國教育部教育技術辦公室2012年4月10日發(fā)布的《通過教育數(shù)據挖掘和學習分析增進教與學(公共評論草案)》中披露出來。
美國教育部門對大數(shù)據的運用主要是創(chuàng)造了“學習分析系統(tǒng)”——一個數(shù)據挖掘、?;桶咐\用的聯(lián)合框架。這些“學習分析系統(tǒng)”旨在向教育工作者提供了解學生到底是在“怎樣”學習的更多、更好、更精確的信息。舉例來說,一個學生成績不好是由于他因為周圍環(huán)境而分心了嗎?期末考試不及格是否意味著該學生并沒有完全掌握這一學期的學習內容,還是因為他請了很多病假的緣故?利用大數(shù)據的學習分析能夠向教育工作者提供有用的信息,從而幫助其回答這些不太好回答的現(xiàn)實問題。
許多人因此會問,大數(shù)據能拯救美國的公立教育嗎?全球最大的電腦軟件提供商微軟公司(Microsoft)的創(chuàng)始人、前首席執(zhí)行官比爾·蓋茨(Bill Gates)今年3月7日在得克薩斯州首府奧斯汀舉行的一個教育會議上打**說,利用數(shù)據分析的教育大數(shù)據能夠提高學生的學習成績,拯救美國的公立學校系統(tǒng)。他稱過去十幾年里教育領域的技術發(fā)展陷入了停滯,研發(fā)投入遠遠不夠。蓋茨充滿信心地認為,教育技術未來發(fā)展的關鍵在于數(shù)據。在這次大會上,5000多名參會者討論了教育數(shù)據應用的前景。
教育大數(shù)據市場前景廣闊
美國高中生和大學生的糟糕表現(xiàn)——高中生退學率高達30%(平均每26秒就有一個高中生退學),33%的大學生需要重修,46%的大學生無法正常畢業(yè)——在讓教育部門憂心忡忡的同時,也讓教育科技公司找到了淘金的機會。近些年來,許多教育科技公司紛紛開始搶灘大數(shù)據學習分析的市場,競爭極為激烈。
美國的一些企業(yè)已經成功地商業(yè)化運作教育中的大數(shù)據。全球最大的信息技術與業(yè)務解決方案公司IBM就與亞拉巴馬州的莫白兒縣公共學區(qū)進行大數(shù)據合作。結果顯示,大數(shù)據對學校的工作具有重要作用。當IBM剛剛開始與這一學區(qū)合作時,除了學生成績不好之外,該縣還面臨著輟學率已增加到48%的嚴峻情況。根據聯(lián)邦政府的《不讓一個孩子掉隊法》(No Child Lift Behind,NCLB),學生成績糟糕的地方政府將受到懲罰。為了應對這一巨大的挑戰(zhàn),該縣此前已經在*****的基礎上建立了一個輟學指示工具,并將其用于全縣層面的決策。但IBM認為這仍不足以改善莫白兒縣窘迫的現(xiàn)狀,需要借助IBM的技術支持重新建立大數(shù)據,進而利用大數(shù)據分析來改善學區(qū)內所有學生的整體成績。
在美國的教育大數(shù)據領域,除了處于領先地位的IBM,還有像“希維塔斯學習”(Civitas Learning)這樣的新興企業(yè)?!跋>S塔斯學習”是一家專門聚焦于運用預測性分析、機器學習從而提高學生成績的年輕公司。該公司在高等教育領域建立起最大的跨校學習數(shù)據庫。通過這些海量數(shù)據,能夠看到學生的分數(shù)、出勤率、輟學率和保留率的主要趨勢。通過使用100多萬名學生的相關記錄和700萬個課程記錄,這家公司的軟件能夠讓用戶探測性地知道導致輟學和學習成績表現(xiàn)不良的警告性信號。此外,還允許用戶發(fā)現(xiàn)那些導致無謂消耗的特定課程,并且看出哪些資源和干預是最成功的。
在加拿大,總部位于安大略省沃特盧的教育科技公司“渴望學習”(Desire 2 Learn)已經面向高等教育領域的學生,推出了基于他們自己過去的學習成績數(shù)據預測并改善其未來學習成績的大數(shù)據服務項目。這家公司的新產品名為“學生成功系統(tǒng)”(Student Success System)?!翱释麑W習”聲稱加拿大和美國的1000多萬名高校學生正在使用其學習管理系統(tǒng)技術?!翱释麑W習”的產品通過監(jiān)控學生閱讀電子化的課程材料、提交電子版的作業(yè)、通過在線與同學交流、完成考試與測驗,就能讓其計算程序持續(xù)、系統(tǒng)地分析每個學生的教育數(shù)據。老師得到的不再是過去那種只展示學生分數(shù)與作業(yè)的結果,而是像閱讀材料的時間長短等這樣更為詳細的重要信息,這樣老師就能及時診斷問題的所在,提出改進的建議,并預測學生的期末考試成績。
像美國的“夢盒學習”(Dream Box Learning)公司和“紐頓”(Knewton)公司這類領先性的開發(fā)者們,已經成功創(chuàng)造并發(fā)布了各自版本的利用大數(shù)據的適應性學習(adaptive learning)系統(tǒng)。在2012年國際消費電子展的高等教育技術峰會上,世界最大的教育出版公司培生集團(Pearson)與適應性學習領域里的先行者紐頓公司共同發(fā)布了主要由培生集團開發(fā)的適應性學習產品——“我的實驗室/高手掌握”(MyLab/Mastering)。這款產品在將全球范圍內向數(shù)百萬名學生提供個性化的學習服務,向他們提供真實可信的學習數(shù)據,讓學校通過這些數(shù)據提高學生的學習效果并降低教學成本。首款產品將在美國的數(shù)十萬名學生中使用,包括數(shù)學、英語,以及寫作等技能開發(fā)課。
紐頓的創(chuàng)辦人、首席執(zhí)行官何塞·費雷拉和培生高等教育分公司的總裁格雷格·托賓共同出席了“我的實驗室/高手掌握”的發(fā)布會并介紹了合作的細節(jié),討論了高等教育的未來。托賓說:“個性化學習是未來教育的一個關鍵點。我們把紐頓的技術整合到‘我的實驗室/高手掌握’這個產品中,是整個行業(yè)進入個性化教育新時代的引領風氣之舉”。費雷拉說:“從今年秋季起,培生的課程材料將在紐頓技術的支持下,開始適應性地滿足每個學生獨特的學習需求。學生能夠生成大量有價值的數(shù)據,紐頓可以分析這些數(shù)據,以此確保學生以最有效、最高效的方式學習。這是教育的一個新的前沿領域”。按照已經達成的協(xié)議,這兩家公司2013年將進一步擴大合作,把大學數(shù)學、大學統(tǒng)計學、大學一年級作文、經濟學以及科學等領域納入其產品中去。
此外,由總部設在美國紐約的麥格勞·希爾公司(McGraw-Hill)、總部設在英國倫敦的培生集團和其他出版公司共同開發(fā)的“課程精靈”系統(tǒng)(CourseSmart),也允許教授們通過讓學生使用電子教科書來跟蹤他們的學業(yè)進展,并向助教們顯示學生的學習參與度和學習成績等大量的數(shù)據信息,只是這一系統(tǒng)尚不具備預測的功能。
五大技術利用教育大數(shù)據
需要特別注意的是,如何收集數(shù)據對于它們未來的使用性非常重要。接收數(shù)據匯入背后的挑戰(zhàn)是從一開始就要標準化,以便今后對數(shù)據進行仔細分析。這樣做并不是意味著將未結構化的數(shù)據轉化為結構化的數(shù)據,而是要用直觀的方法對接收的數(shù)據進行分類。應該說,獲得相關數(shù)據并不是一件容易的事。對于大學階段的學生而言,數(shù)據的收集并不是主要問題。然而,對于中小學階段的學生而言,挑戰(zhàn)卻很大,因為有些數(shù)據的收集存在法律問題,有的則存在倫理道德的問題。
數(shù)據收集者的人數(shù)和技能也是一個問題。對于公司而言,通常通過網絡上的小型文本文件(cookies)來收集用戶的相關信息。但是對于美國聯(lián)邦政府教育部而言,則需要依賴于全國眾多學區(qū)和研究者的網絡來提煉和確認數(shù)據。教育工作者和研究者已經開發(fā)出從大數(shù)據中提取價值的5種主要的技術。
1.預測(PredicTIon)——覺知預料中的事實的可能性。例如,要具備知道一個學生在什么情況下盡管事實上有能力但卻有意回答錯誤的能力。
2.聚類(Clustering)——發(fā)現(xiàn)自然集中起來的數(shù)據點。這對于把有相同學習興趣的學生分在一組很有用。
3.相關性挖掘(RelaTIonship Mining)——發(fā)現(xiàn)各種變量之間的關系,并對其進行解碼以便今后使用它們。這對探知學生在尋求幫助后是否能夠正確回答問題的可靠性很有幫助。
4.升華人的判斷(DisTIllaTIon for human judgment)——建立可視的機器學習的模式。
5.用模式進行發(fā)現(xiàn)(Discovery with models)——使用通過大數(shù)據分析開發(fā)出的模式進行“元學習”(meta-study)。
實施這些技術就能夠通過大數(shù)據來創(chuàng)建為提高學生成績提供支持的學習分析系統(tǒng)。研究者們相信這些技術將幫助教育工作者更加有效地指導學生朝著更加個性化的學習進程邁進。
大數(shù)據讓考試變得更科學
教育中的數(shù)據挖掘是邁向大數(shù)據分析的一項主要工作。教育中最近的趨勢是允許研究者積累大量尚未結構化的數(shù)據(unstructured data)。結構化的數(shù)據(structured data)是從教育部門多年的數(shù)據——特別考試成績和出勤記錄——那里收集而來?;有詫W習的新方法已經通過智力輔導系統(tǒng)、刺激與激勵機制、教育性的游戲產生了越來越多的尚未結構化的數(shù)據。這就使得更豐富的數(shù)據能給研究者創(chuàng)造出比過去更多的探究學生學習環(huán)境的新機會。
教育數(shù)據與其他領域中的數(shù)據比較起來,有一些獨特的特征。總結起來就是教育數(shù)據是分層的(hierarchical)。美國教育部教育技術辦公室在《通過教育數(shù)據挖掘和學習分析增進教與學(公共評論草案)》的第18頁中寫道:“教育數(shù)據是……分層的。有鍵擊層(keystroke level)、回答層(answer level)、學期層(session level)、學生層(student level)、教室層(classroom level)、教師層(teacher level)和學校層(school level),數(shù)據就寓居在這些不同的層之中?!?/p>
當某個學生回答一個問題時,一些變量就需要一起分析了。例如,學生回答正確率低的問題就是好問題嗎?此外,時間也是重要的因素。比如,一個學生在考試的第一部分耗時太多,是否意味著其接下來就會飛速、凌亂地答題。一道問題的答題順序、結果、具體情況,都給研究者提供了許多前所未有的大量數(shù)據。運用這些數(shù)據,研究者就能揭示學生的學習模式。研究者利用所有這些數(shù)據就能獲悉到底是什么因素對學生構成了最好的學習環(huán)境。理解這些重要的問題有助于教育工作者給學生創(chuàng)造一個個性化的學習模式。
監(jiān)測學生是“如何”考試的能讓研究者有效定型學生的學習行為。大數(shù)據要求教育工作者必須超越傳統(tǒng),不能只追求正確的答案,學生是如何朝著正確答案努力的過程也同樣重要。在一次考試中,學生個人和整體在每道題上花費了多少時間?最長的是多少?最短的是多少?平均又是多少?哪些此前已經出現(xiàn)過的問題學生答對或答錯了?哪些問題的線索讓學生獲益了?通過監(jiān)測這些信息,形成數(shù)據檔案,能夠幫助教育工作者理解學生為了掌握學習內容而進行學習的全過程,并有助于向他們提供個性化的學習模式。
監(jiān)控學生的每一個學習行為是可能的。為了改進學生的學習成績,我們需要知道他們回答一個問題用了多少時間,回答這個問題使用了哪些資源,哪些問題被跳過了,為了回答這個問題做了哪些研究工作,這個問題與其他已經回答了的問題之間存在什么關系。此外,老師對每個學生提供什么樣的建議才是最佳的?學生寫作業(yè)和答題的信息能立即被自動地監(jiān)測到,老師還能在第一時間將這些信息反饋給學生。
用這些學生學習的行為檔案創(chuàng)造適應性的學習系統(tǒng)能夠提高學生的學習效果。利用學生是“如何”學習的這樣重要的信息,考試的出題者們就能為學生量身定制出適合學生的個性化問題,并設計出能夠促進記憶力的線索。通過分析大數(shù)據,研究者發(fā)現(xiàn)從教育的效果上來看,當被問到一系列難度逐漸增加且互相關聯(lián)的問題時,學生的表現(xiàn)要好于圍繞一個共同的知識點而隨機挑選出的問題。美國標準化的研究生入學考試(GRE)中的這種適應性考試已經顯示出朝這一方向努力的趨勢。