Python3學(xué)習(xí)筆記7-文件的讀寫

時(shí)間：2018-10-12 15:40:02

關(guān)鍵字： python 文件讀寫

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]搜索Python文件的讀寫。發(fā)現(xiàn)一篇文章，介紹了?Comma-separated values(CSV)?XLSX?ZIP?Plain Text (txt)?JSON?XML?HTML?Images?

搜索Python文件的讀寫。發(fā)現(xiàn)一篇文章，介紹了?

Comma-separated values(CSV)?
XLSX?
ZIP?
Plain Text (txt)?
JSON?
XML?
HTML?
Images?
Hierarchical Data Format?
PDF?
DOCX?
MP3?
MP4?
文件類型和Python對(duì)這些文件的讀寫。

CSDN上kevinelstri作者的譯文：?
使用python讀取數(shù)據(jù)科學(xué)最常用的文件格式?
http://blog.csdn.net/kevinelstri/article/details/61921812

原文地址：?
How to read most commonly used file formats in Data Science (using Python)??
https://www.analyticsvidhya.com/blog/2017/03/read-commonly-used-formats-using-python/

CSDN上有好多好文章，天哪

以后會(huì)經(jīng)常用到的文件讀寫應(yīng)該是CSV文件，XLSX文件，TXT文件JSON文件?
HTML文件。

pandas( powerful Python data analysis toolkit)模塊可以實(shí)現(xiàn)CSV，XLSX，JSON文件類型的讀寫等操作。?
pandas官方文檔：http://pandas.pydata.org/pandas-docs/stable/

HTML文件是爬蟲的目標(biāo)。urllib，BeautifulSoup，Scrapy等模塊都可是實(shí)現(xiàn)HTML文件的讀寫等操作。

Python爬蟲一般需要掌握網(wǎng)頁(yè)抓取原理及技術(shù)，了解基于Cookie的登錄原理，熟悉基于正則表達(dá)式、XPath、CSS等網(wǎng)頁(yè)信息抽取技術(shù)；了解多線程、多進(jìn)程、網(wǎng)絡(luò)通信編程相關(guān)知識(shí)，有分布式爬蟲架構(gòu)，數(shù)據(jù)挖掘經(jīng)驗(yàn)；使用scrapy等爬蟲框架；

以后系統(tǒng)學(xué)習(xí)爬蟲再好好整理學(xué)習(xí)筆記。

最近趕緊看Web開(kāi)發(fā)，學(xué)好flask，MySQL，bootstrap這些。?
趕緊找到工作啊啊啊啊

Beginner’s guide to Web Scraping in Python (using BeautifulSoup)?
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/

Scrapy documentation:?
https://docs.scrapy.org/en/latest/

Github repository?
scrapy?
https://github.com/scrapy/scrapy