當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 充電吧
[導(dǎo)讀]欲先攻其事必先利其器1、 安裝nltk,使用[python]?view plain?copypip?install?nltk??2、 在命令行下執(zhí)行??[python]?view plain?copy

欲先攻其事必先利其器
1、 安裝nltk,使用[python]?view plain?copypip?install?nltk??

2、 在命令行下執(zhí)行??

[python]?view plain?copyimport?nltk??nltk.download('punkt')??一段原始文本要可以處理必須經(jīng)過(guò)幾個(gè)階段,一般而言主要有
1、文本清理,清理掉一些不必要的字符,比如使用BeautifulSoup的get_text,一處非ascii字符等等
2、語(yǔ)句分離,一大段原生文本,處理成一系列的語(yǔ)句,用計(jì)算機(jī)術(shù)語(yǔ)而言就是將一個(gè)字符串分割成若干字符串,可以使用"."或者"。"或者nltk_tokenize預(yù)置的預(yù)處理函數(shù),(使用方式 from nltk.tokenize import sent_tokenize)
3、標(biāo)識(shí)化處理,機(jī)器所能理解的最小單位是單詞,所以我們?cè)谡Z(yǔ)句分離的基礎(chǔ)上還要進(jìn)行分詞操作,也就是將一個(gè)原生字符串分割成一系列有意義的單詞NLP標(biāo)識(shí)化處理的復(fù)雜性根據(jù)應(yīng)用的不同而不同,標(biāo)識(shí)器有很多,比如split,word_tokenize和regex_tokenize
4、詞干提取,較為粗糙的規(guī)則處理過(guò)程,修枝剪葉,比如eating,eaten 共同的詞根是eat,我在處理時(shí),認(rèn)為eating和eaten就是一個(gè)eat就ok
5、詞性還原,包含了詞根所有的變化,詞性還原操作會(huì)根據(jù)當(dāng)前上下文環(huán)境,將詞根還原成當(dāng)前應(yīng)該表現(xiàn)的形式使用方式(from nltk.stem import WordNetLemmatizer)

6、停用詞移除,比如無(wú)意義的the a? an 等詞匯會(huì)被移除,一般停用詞表示人工定制的,也有一些是根據(jù)給定語(yǔ)料庫(kù)自動(dòng)生成的nltk包含22種語(yǔ)言的停用詞表

根據(jù)以上觀點(diǎn),涉及到的python代碼是:

[python]?view plain?copy#?-*-?coding:?utf-8?-*-??import?re??import?requests??import?operator??from?bs4?import?BeautifulSoup??from?nltk.tokenize?import?sent_tokenize,wordpunct_tokenize,blankline_tokenize,word_tokenize??import?nltk??import?pymysql??import?os????def?mysql_select():??????#?打開(kāi)數(shù)據(jù)庫(kù)連接??????db?=?pymysql.connect(host="localhost",user="root",passwd="root",db="csdn",charset="utf8")??????#?使用cursor()方法獲取操作游標(biāo)??????cursor?=?db.cursor()??????cursor.execute("SELECT?*?FROM?`article_info`?ORDER?BY?RAND()?LIMIT?1")??????#?提交到數(shù)據(jù)庫(kù)執(zhí)行??????result?=?cursor.fetchall()??????db.close()??????return?result????str_text?=?mysql_select()??#文本清理,我只需要content的內(nèi)容??str_text?=?str_text[0]??#獲得content??str_text?=?str_text[3]??#進(jìn)行文本清理,去掉html??soup?=?BeautifulSoup(str_text,?'lxml')??str_text?=?soup.get_text()??#print("文本清理的結(jié)果:?"+?str_text)??#語(yǔ)句分離器??text_list?=?sent_tokenize(str_text)??#標(biāo)識(shí)化處理,針對(duì)所有的語(yǔ)句進(jìn)行標(biāo)識(shí)化處理??word_list?=?[]??#使用nltk的內(nèi)置函數(shù)進(jìn)行語(yǔ)句分離??for?sentence?in?text_list:??????item_list?=?word_tokenize(sentence)??????word_list.extend(item_list)??result_1_word_list?=?[]??for?word?in?word_list:??????blank_list?=?blankline_tokenize(word)??????result_1_word_list.extend(blank_list)??????'''''?print("查看分詞結(jié)果")?for?item?in?result_1_word_list:?????print(item)?????'''??#去掉停用詞??stop_words?=?[word.strip().lower()?for?word?in?['{','}','(',')',']','[']]??clean_tokens?=?[tok?for?tok?in?result_1_word_list?if?len(tok.lower())>1?and?(tok.lower?not?in?stop_words)]??token_nltk_result?=?nltk.FreqDist(clean_tokens)??for?k,v?in?token_nltk_result.items():??????print(str(k)+"?:?"+str(v))??token_nltk_result.plot(10,cumulative=True)??

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉