Python3學(xué)習(xí)筆記7-文件的讀寫
搜索Python文件的讀寫。發(fā)現(xiàn)一篇文章,介紹了?
Comma-separated values(CSV)?
XLSX?
ZIP?
Plain Text (txt)?
JSON?
XML?
HTML?
Images?
Hierarchical Data Format?
PDF?
DOCX?
MP3?
MP4?
文件類型和Python對(duì)這些文件的讀寫。
CSDN上kevinelstri作者的譯文:?
使用python讀取數(shù)據(jù)科學(xué)最常用的文件格式?
http://blog.csdn.net/kevinelstri/article/details/61921812
原文地址:?
How to read most commonly used file formats in Data Science (using Python)??
https://www.analyticsvidhya.com/blog/2017/03/read-commonly-used-formats-using-python/
CSDN上有好多好文章,天哪
以后會(huì)經(jīng)常用到的文件讀寫應(yīng)該是CSV文件,XLSX文件,TXT文件JSON文件?
HTML文件。
pandas( powerful Python data analysis toolkit)模塊可以實(shí)現(xiàn)CSV,XLSX,JSON文件類型的讀寫等操作。?
pandas官方文檔:http://pandas.pydata.org/pandas-docs/stable/
HTML文件是爬蟲的目標(biāo)。urllib,BeautifulSoup,Scrapy等模塊都可是實(shí)現(xiàn)HTML文件的讀寫等操作。
Python爬蟲一般需要掌握網(wǎng)頁(yè)抓取原理及技術(shù),了解基于Cookie的登錄原理,熟悉基于正則表達(dá)式、XPath、CSS等網(wǎng)頁(yè)信息抽取技術(shù);了解多線程、多進(jìn)程、網(wǎng)絡(luò)通信編程相關(guān)知識(shí),有分布式爬蟲架構(gòu),數(shù)據(jù)挖掘經(jīng)驗(yàn); 使用scrapy等爬蟲框架;
以后系統(tǒng)學(xué)習(xí)爬蟲再好好整理學(xué)習(xí)筆記。
最近趕緊看Web開(kāi)發(fā),學(xué)好flask,MySQL,bootstrap這些。?
趕緊找到工作啊啊啊啊
Beginner’s guide to Web Scraping in Python (using BeautifulSoup)?
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/
Scrapy documentation:?
https://docs.scrapy.org/en/latest/
Github repository?
scrapy?
https://github.com/scrapy/scrapy