當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 充電吧
[導(dǎo)讀]1.環(huán)境搭建?????import nltk? ??nltk.download("averaged_perceptron_tagger")2、下載以下幾個(gè)文件stanford-parser-full-

1.環(huán)境搭建?????import nltk? ??nltk.download("averaged_perceptron_tagger")

2、下載以下幾個(gè)文件

stanford-parser-full-2015-12-09??stanford-ner-2015-12-09

stanford-segmenter-2015-12-09?stanford-postagger-full-2015-12-09?

? 修改過(guò)的nltk?nltk-develop?????stanford-chinese-corenlp-2018-02-27-models??

前四個(gè)包是斯坦福提供的分析資源包,該工具的使用依賴(lài)于JAVA環(huán)境需要裝JDK 1.8 在此不贅述,nltk_develop,需要運(yùn)行其中的setup.py文件,忘了說(shuō)了,我的環(huán)境是python 36,運(yùn)行完成后在PYTHON36安裝目錄下的Lib文件夾里面的site-packages里面生成和nltk相關(guān)的3個(gè)文件夾,將??修改過(guò)的nltk下載下來(lái)之后覆蓋即可,最后一個(gè)chinese-corenlp則是資源文件

3、 斯坦福詞性標(biāo)注器安裝部署

????3.2、 斯坦福分詞操作

# -*- coding: utf-8 -*-
from nltk.tokenize.stanford_segmenter import StanfordSegmenter
data_dir = "D:\NLTK\stanford-segmenter-2015-12-09"
segmenter = StanfordSegmenter(
    java_class='edu.stanford.nlp.ie.crf.CRFClassifier',
    path_to_jar=data_dir + "\stanford-segmenter-3.6.0.jar",
    path_to_slf4j=data_dir+"\slf4j-api.jar",
    path_to_sihan_corpora_dict=data_dir+"\data",
    path_to_model=data_dir+"\data\pku.gz",
    path_to_dict=data_dir+"\data\dict-chris6.ser.gz"
    )
sentence = u"這是斯坦福中文分詞器測(cè)試"
result = segmenter.segment(sentence)
print(result)

總結(jié)一定要注意path_to_slf4j路徑,否則會(huì)出現(xiàn)java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory,錯(cuò)誤

3.3 StanfordNERTagger? 英文命名實(shí)體識(shí)別

# -*- coding: utf-8 -*-
from nltk.tag import StanfordNERTagger
eng_tagger = StanfordNERTagger(
    model_filename=r'D:NLTKstanford-ner-2015-12-09classifiersenglish.all.3class.distsim.crf.ser.gz',
    path_to_jar=r'D:NLTKstanford-ner-2015-12-09stanford-ner.jar',
)
print(eng_tagger.tag('Rami Eid is studying at Stony Brook University in NY'.split()))
總結(jié):StanfordNERTagger沒(méi)有參數(shù)接收path_to_slf4j參數(shù),還是出現(xiàn)了java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory錯(cuò)誤
修正方式:修改文件 C:Python36Libsite-packagesnltktagstanford.py文件的函數(shù)tag_sents在? ? ? stanpos_output, stderr 賦值處之前添加
_CLASS_PATH = "."
        if os.environ.get('CLASSPATH') is not None:
            _CLASS_PATH = os.environ.get('CLASSPATH')
        stanpos_output, stderr = java(cmd, classpath=(self._stanford_jar, _CLASS_PATH), stdout=PIPE, stderr=PIPE)
如果之前已經(jīng)覆蓋過(guò)Lib里面的site-packages即可跳過(guò)

當(dāng)前,這個(gè)方式的前提是在你電腦的環(huán)境變量上CLASSPATH添加slf4j-api.jar的絕對(duì)路徑即可

3.4中文命名實(shí)體

#對(duì)于chinese.misc.distsim.crf.ser.gz與chinese.misc.distsim.prop文件,將stanford-chinese-corenlp-2016-10-31-models.jar解壓可以找到。

# -*- coding: utf-8 -*-
from nltk.tag import StanfordNERTagger
result='四川省 成都 信息 工程 大學(xué) 我 在 博客 園 開(kāi) 了 一個(gè) 博客 , 我 的 博客 名叫 伏 草 惟 存 , 寫(xiě) 了 一些 自然語(yǔ)言 處理 的 文章 。rn'
chi_tagger = StanfordNERTagger(model_filename=r'D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelsnerchinese.misc.distsim.crf.ser.gz',
                               path_to_jar=r'D:NLTKstanford-ner-2015-12-09stanford-ner.jar')
for word, tag in chi_tagger.tag(result.split()):
    print(word,tag)
3.5詞性標(biāo)注

StanfordPOSTagger 中文詞性標(biāo)注

# -*- coding: utf-8 -*-
from nltk.tag import StanfordPOSTagger
chi_tagger = StanfordPOSTagger(model_filename=r'D:NLTKstanford-postagger-full-2015-12-09modelschinese-distsim.tagger',
                             path_to_jar=r'D:NLTKstanford-postagger-full-2015-12-09stanford-postagger.jar')
result= '四川省 成都 信息 工程 大學(xué) 我 在 博客 園 開(kāi) 了 一個(gè) 博客 , 我 的 博客 名叫 伏 草 惟 存 , 寫(xiě) 了 一些 自然語(yǔ)言 處理 的 文章 。rn'
print(chi_tagger.tag(result.split()))

3.6中文語(yǔ)法分析

# -*- coding: utf-8 -*-
from nltk.parse.stanford import StanfordParser
chi_parser = StanfordParser(r"D:NLTKstanford-parser-full-2015-12-09stanford-parser.jar",
                            r"D:NLTKstanford-parser-full-2015-12-09stanford-parser-3.6.0-models.jar",
                            r"D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelslexparserchinesePCFG.ser.gz")
sent = u'北海 已 成為 中國(guó) 對(duì)外開(kāi)放 中 升起 的 一 顆 明星'
print(list(chi_parser.parse(sent.split())))

3.7 中文依存句法分析

# -*- coding: utf-8 -*-
from nltk.parse.stanford import StanfordDependencyParser
chi_parser = StanfordDependencyParser(r"D:NLTKstanford-parser-full-2015-12-09stanford-parser.jar",
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? r"D:NLTKstanford-parser-full-2015-12-09stanford-parser-3.6.0-models.jar",
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? r"D:NLTKstanford-chinese-corenlp-2018-02-27-modelsedustanfordnlpmodelslexparserchinesePCFG.ser.gz")
res = list(chi_parser.parse(u'四川 已 成為 中國(guó) 西部 對(duì)外開(kāi)放 中 升起 的 一 顆 明星'.split()))
for row in res[0].triples():
? ? print(row)

說(shuō)明所有資料整理自?

【NLP】干貨!Python NLTK結(jié)合stanford NLP工具包進(jìn)行文本處理根據(jù)自己的環(huán)境進(jìn)行的修改,上述代碼可以正常運(yùn)行
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉