第七屆語(yǔ)言與智能高峰論壇舉辦 2022語(yǔ)言與智能技術(shù)競(jìng)賽完成頒獎(jiǎng)

時(shí)間：2022-09-21 16:08:28

關(guān)鍵字：語(yǔ)言與智能高峰論壇

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]9月18日，由中國(guó)中文信息學(xué)會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)共同發(fā)起并聯(lián)合主辦的第七屆語(yǔ)言與智能高峰論壇召開(kāi)。論壇上，2022語(yǔ)言與智能技術(shù)競(jìng)賽賽事組委會(huì)為各獲獎(jiǎng)團(tuán)隊(duì)舉行了頒獎(jiǎng)，賽事各冠軍團(tuán)隊(duì)就參賽技術(shù)方案作詳細(xì)報(bào)告。

9月18日，由中國(guó)中文信息學(xué)會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)共同發(fā)起并聯(lián)合主辦的第七屆語(yǔ)言與智能高峰論壇召開(kāi)。論壇上，2022語(yǔ)言與智能技術(shù)競(jìng)賽賽事組委會(huì)為各獲獎(jiǎng)團(tuán)隊(duì)舉行了頒獎(jiǎng)，賽事各冠軍團(tuán)隊(duì)就參賽技術(shù)方案作詳細(xì)報(bào)告。

第七屆語(yǔ)言與智能高峰論壇舉辦 2022語(yǔ)言與智能技術(shù)競(jìng)賽完成頒獎(jiǎng)

語(yǔ)言與智能技術(shù)競(jìng)賽由中國(guó)中文信息學(xué)會(huì)和中國(guó)計(jì)算機(jī)學(xué)會(huì)聯(lián)合主辦，百度、中國(guó)中文信息學(xué)會(huì)評(píng)測(cè)工作委員會(huì)和中國(guó)計(jì)算機(jī)學(xué)會(huì)自然語(yǔ)言處理專(zhuān)委會(huì)承辦。自2018年舉辦以來(lái)，憑借面向真實(shí)應(yīng)用場(chǎng)景的任務(wù)設(shè)計(jì)和源自真實(shí)場(chǎng)景的數(shù)據(jù)集，該競(jìng)賽已成為全球最權(quán)威、最熱門(mén)的中文NLP賽事之一。2022屆競(jìng)賽進(jìn)一步升級(jí)，聯(lián)合“千言”數(shù)據(jù)集開(kāi)源項(xiàng)目，設(shè)置了段落檢索、知識(shí)對(duì)話(huà)、情感可解釋、視頻語(yǔ)義理解四大任務(wù)，覆蓋了跨模態(tài)、知識(shí)驅(qū)動(dòng)、可信學(xué)習(xí)等前沿課題，具有較高的學(xué)術(shù)和產(chǎn)業(yè)價(jià)值。

賽題任務(wù)的全面升級(jí)受到了來(lái)自學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。據(jù)統(tǒng)計(jì)，本屆競(jìng)賽共計(jì)約2500支團(tuán)隊(duì)報(bào)名，參賽選手覆蓋全球262所高校和208家企業(yè)，提交有效結(jié)果超過(guò)7000份。其中，高校選手占比約52%，來(lái)自清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、中國(guó)人民大學(xué)、中國(guó)科學(xué)院大學(xué)、伊利諾伊理工大學(xué)、悉尼大學(xué)等國(guó)內(nèi)外知名高校;企業(yè)選手占比約34%，來(lái)自中國(guó)移動(dòng)、聯(lián)通、平安保險(xiǎn)、華為、騰訊、網(wǎng)易、小米、小鵬汽車(chē)、?？低暋⑹┠偷码姎獾戎髽I(yè)，覆蓋了金融、互聯(lián)網(wǎng)、傳媒、通信、工程機(jī)械、能源、生物等多個(gè)行業(yè)。

經(jīng)過(guò)激烈的競(jìng)爭(zhēng)，最終來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、香港中文大學(xué)、阿里巴巴、騰訊、商湯科技等高校與企業(yè)的共計(jì)16支團(tuán)隊(duì)獲獎(jiǎng)。

段落檢索賽題獲獎(jiǎng)團(tuán)隊(duì)

知識(shí)對(duì)話(huà)賽題獲獎(jiǎng)團(tuán)隊(duì)

情感可解釋賽題獲獎(jiǎng)團(tuán)隊(duì)

視頻語(yǔ)義理解賽題獲獎(jiǎng)團(tuán)隊(duì)

賽事優(yōu)勝團(tuán)隊(duì)在參賽方案中均使用了預(yù)訓(xùn)練語(yǔ)言模型，也提出了很多創(chuàng)新思路和方案，并取得了大幅的效果提升。相較于賽事官方的基線成績(jī)，段落檢索任務(wù)提升了15.40%，知識(shí)對(duì)話(huà)任務(wù)提升了142.86%，情感可解釋任務(wù)提升了77.12%，視頻語(yǔ)義理解任務(wù)提升了50%，各團(tuán)隊(duì)的技術(shù)方案有力地推動(dòng)了相關(guān)任務(wù)的技術(shù)探索。在論壇的評(píng)測(cè)報(bào)告環(huán)節(jié)，四大任務(wù)的冠軍團(tuán)隊(duì)對(duì)各自的參賽方案做了分享。

在段落檢索任務(wù)中，來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)的“young的團(tuán)隊(duì)”提出了一種基于弱監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練的開(kāi)放問(wèn)答段落檢索方法，該方法可以有效提升檢索準(zhǔn)確率。在知識(shí)對(duì)話(huà)賽題中，來(lái)自騰訊的“拿件T恤就溜”團(tuán)隊(duì)，設(shè)計(jì)了一個(gè)基于實(shí)時(shí)知識(shí)搜索API的知識(shí)對(duì)話(huà)系統(tǒng)，實(shí)驗(yàn)表明該方案可以顯著提升對(duì)話(huà)整體的連貫性和吸引力。在情感可解釋任務(wù)中，阿里巴巴的“Ali_農(nóng)民工團(tuán)隊(duì)” 提出了一個(gè)基于通用信息抽取統(tǒng)一框架 UIE的情感可解釋分析方法，該方法根據(jù)情感可解釋任務(wù)的特點(diǎn)，使用few-shot、文本聚類(lèi)等方法，提高了模型的合理性、忠誠(chéng)性。在視頻語(yǔ)義理解任務(wù)中，來(lái)自商湯科技&香港科技大學(xué)的“商湯NLP×LaVi的團(tuán)隊(duì)”針對(duì)分類(lèi)標(biāo)簽預(yù)測(cè)任務(wù)和語(yǔ)義標(biāo)簽預(yù)測(cè)任務(wù)，分別設(shè)計(jì)了對(duì)應(yīng)方案，提出了基于多模態(tài)學(xué)習(xí)的視頻語(yǔ)義理解模型，并通過(guò)數(shù)據(jù)增強(qiáng)、數(shù)據(jù)加權(quán)和多模型集成進(jìn)一步提升方案性能，最終脫穎而出。

針對(duì)此次競(jìng)賽，百度自然語(yǔ)言處理部主任架構(gòu)師劉璟進(jìn)行了總結(jié)，他表示：“四大任務(wù)的優(yōu)勝方案相對(duì)基線均大幅提升。各優(yōu)勝隊(duì)伍均基于預(yù)訓(xùn)練模型進(jìn)行了一系列的創(chuàng)新，如采用prompting技術(shù)、面向任務(wù)的預(yù)訓(xùn)練等，有效地推動(dòng)了技術(shù)的進(jìn)步。目前來(lái)看，知識(shí)融合、可信學(xué)習(xí)、跨模態(tài)等技術(shù)在應(yīng)用落地中還存在很多挑戰(zhàn)，未來(lái)需要更大地突破?！?

值得一提的是，本次競(jìng)賽數(shù)據(jù)集均來(lái)自于千言中文開(kāi)源數(shù)據(jù)集項(xiàng)目。千言是面向自然語(yǔ)言處理的中文開(kāi)源數(shù)據(jù)共建項(xiàng)目，由中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)和百度聯(lián)合發(fā)起，目前已有近20家單位的數(shù)據(jù)集作者參與共建，已有覆蓋文本生成、情感分析、閱讀理解等15個(gè)任務(wù)方向的近60個(gè)中文NLP開(kāi)源數(shù)據(jù)集入駐。

千言官網(wǎng)

2022語(yǔ)言與智能競(jìng)賽發(fā)布了首個(gè)來(lái)自搜索引擎的大規(guī)模中文段落檢索數(shù)據(jù)集DuReader_retrieval、首個(gè)服務(wù)信息增強(qiáng)對(duì)話(huà)數(shù)據(jù)集DuSinc、首個(gè)細(xì)粒度中文情感可解釋評(píng)測(cè)數(shù)據(jù)集DuExplain、視頻語(yǔ)義理解數(shù)據(jù)集 DuVideoTag。賽后，開(kāi)發(fā)者可繼續(xù)在千言數(shù)據(jù)集官網(wǎng)下載使用以上數(shù)據(jù)集，并參與相應(yīng)的榜單評(píng)測(cè)，不斷提升技術(shù)水平，實(shí)現(xiàn)創(chuàng)新發(fā)展。

語(yǔ)言是人類(lèi)信息傳遞最重要的媒介，近年來(lái)自然語(yǔ)言處理領(lǐng)域獲得了產(chǎn)學(xué)研各界的持續(xù)關(guān)注。語(yǔ)言與智能技術(shù)競(jìng)賽將繼續(xù)提供面向真實(shí)應(yīng)用場(chǎng)景的數(shù)據(jù)集和富有挑戰(zhàn)性的任務(wù)設(shè)定，引領(lǐng)學(xué)術(shù)研究面向真實(shí)應(yīng)用，提升語(yǔ)言理解與人機(jī)交互智能水平，為推動(dòng)語(yǔ)言與智能領(lǐng)域技術(shù)發(fā)展和應(yīng)用貢獻(xiàn)力量。