導航:首頁 > 數據處理 > python怎麼爬數據

python怎麼爬數據

發布時間：2024-01-14 09:25:35

『壹』如何入門 Python 爬蟲

現在之所以有這么多的小夥伴熱衷於爬蟲技術，無外乎是因為爬蟲可以幫我們做很多事情，比如搜索引擎、採集數據、廣告過濾等，以Python為例，Python爬蟲可以用於數據分析，在數據抓取方面發揮巨大的作用。
但是這並不意味著單純掌握一門Python語言，就對爬蟲技術觸類旁通，要學習的知識和規范還有喜很多，包括但不僅限於HTML 知識、HTTP/HTTPS 協議的基本知識、正則表達式、資料庫知識，常用抓包工具的使用、爬蟲框架的使用等。而且涉及到大規模爬蟲，還需要了解分布式的概念、消息隊列、常用的數據結構和演算法、緩存，甚至還包括機器學習的應用，大規模的系統背後都是靠很多技術來支撐的。
零基礎如何學爬蟲技術？對於迷茫的初學者來說，爬蟲技術起步學習階段，最重要的就是明確學習路徑，找准學習方法，唯有如此，在良好的學習習慣督促下，後期的系統學習才會事半功倍，游刃有餘。
用Python寫爬蟲，首先需要會Python，把基礎語法搞懂，知道怎麼使用函數、類和常用的數據結構如list、dict中的常用方法就算基本入門。作為入門爬蟲來說，需要了解 HTTP協議的基本原理，雖然 HTTP 規范用一本書都寫不完，但深入的內容可以放以後慢慢去看，理論與實踐相結合後期學習才會越來越輕松。關於爬蟲學習的具體步驟，我大概羅列了以下幾大部分，大家可以參考：
網路爬蟲基礎知識:
爬蟲的定義
爬蟲的作用
Http協議
基本抓包工具(Fiddler)使用
Python模塊實現爬蟲：
urllib3、requests、lxml、bs4 模塊大體作用講解
使用requests模塊 get 方式獲取靜態頁面數據
使用requests模塊 post 方式獲取靜態頁面數據
使用requests模塊獲取 ajax 動態頁面數據
使用requests模塊模擬登錄網站
使用Tesseract進行驗證碼識別
Scrapy框架與Scrapy-Redis：
Scrapy 爬蟲框架大體說明
Scrapy spider 類
Scrapy item 及 pipeline
Scrapy CrawlSpider 類
通過Scrapy-Redis 實現分布式爬蟲
藉助自動化測試工具和瀏覽器爬取數據：
Selenium + PhantomJS 說明及簡單實例
Selenium + PhantomJS 實現網站登錄
Selenium + PhantomJS 實現動態頁面數據爬取
爬蟲項目實戰：
分布式爬蟲+ Elasticsearch 打造搜索引擎

『貳』 python可以爬取什麼數據

一、爬取我們所需要的一線鏈接
channel_extract.py
這里的一線鏈接也就是我們所說的大類鏈接：
from bs4 import BeautifulSoupimport requests

start_url = 'http://lz.ganji.com/wu/'host_url = 'http://lz.ganji.com/'def get_channel_urls(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links = soup.select('.fenlei > dt > a') #print(links)
for link in links:
page_url = host_url + link.get('href')
print(page_url)#get_channel_urls(start_url)channel_urls = '''
http://lz.ganji.com/jiaju/
http://lz.ganji.com/rironghuo/
http://lz.ganji.com/shouji/
http://lz.ganji.com/bangong/
http://lz.ganji.com/nongyongpin/
http://lz.ganji.com/jiadian/
http://lz.ganji.com/ershoubijibendiannao/
http://lz.ganji.com/ruanjiantushu/
http://lz.ganji.com/yingyouyunfu/尺毀滲
http://lz.ganji.com/diannao/
http://lz.ganji.com/xianlipin/
http://lz.ganji.com/fushixiaobaxuemao/
http://lz.ganji.com/meironghuazhuang/
http://lz.ganji.com/shuma/
http://lz.ganji.com/laonianyongpin/
http://lz.ganji.com/xuniwupin/
'''

那麼拿我爬取的58同城為例就是余舉爬取了二手市場所有品類的鏈接，也就是我說的大類鏈接；
找到這些鏈接的共同特徵，用函數將其輸出，並作為多行文本儲存起來。
二、獲取陵脊我們所需要的詳情頁面的鏈接和詳情信息
page_parsing.py
1、說說我們的資料庫：
先看代碼：
#引入庫文件from bs4 import BeautifulSoupimport requestsimport pymongo #python操作MongoDB的庫import reimport time#鏈接和建立資料庫client = pymongo.MongoClient('localhost', 27017)
ceshi = client['ceshi'] #建ceshi資料庫ganji_url_list = ceshi['ganji_url_list'] #建立表文件ganji_url_info = ceshi['ganji_url_info']123456789101112

2、判斷頁面結構是否和我們想要的頁面結構相匹配，比如有時候會有404頁面；
3、從頁面中提取我們想要的鏈接，也就是每個詳情頁面的鏈接；
這里我們要說的是一個方法就是:
item_link = link.get('href').split('?')[0]12

這里的這個link什麼類型的，這個get方法又是什麼鬼？
後來我發現了這個類型是
<class 'bs4.element.Tab>1

如果我們想要單獨獲取某個屬性，可以這樣，例如我們獲取它的 class 叫什麼
print soup.p['class']
#['title']12

還可以這樣，利用get方法，傳入屬性的名稱，二者是等價的
print soup.p.get('class')#['title']12

下面我來貼上代碼：
#爬取所有商品的詳情頁面鏈接：def get_type_links(channel, num):
list_view = '{0}o{1}/'.format(channel, str(num)) #print(list_view)
wb_data = requests.get(list_view)
soup = BeautifulSoup(wb_data.text, 'lxml')
linkOn = soup.select('.pageBox') #判斷是否為我們所需頁面的標志；
#如果爬下來的select鏈接為這樣：div.pageBox > ul > li:nth-child(1) > a > span 這里的:nth-child(1)要刪掉
#print(linkOn)
if linkOn:
link = soup.select('.zz > .zz-til > a')
link_2 = soup.select('.js-item > a')
link = link + link_2 #print(len(link))
for linkc in link:
linkc = linkc.get('href')
ganji_url_list.insert_one({'url': linkc})
print(linkc) else:

4、爬取詳情頁中我們所需要的信息
我來貼一段代碼：
#爬取趕集網詳情頁鏈接：def get_url_info_ganji(url):
time.sleep(1)
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml') try:
title = soup.select('head > title')[0].text
timec = soup.select('.pr-5')[0].text.strip()
type = soup.select('.det-infor > li > span > a')[0].text
price = soup.select('.det-infor > li > i')[0].text
place = soup.select('.det-infor > li > a')[1:]
placeb = [] for placec in place:
placeb.append(placec.text)
tag = soup.select('.second-dt-bewrite > ul > li')[0].text
tag = ''.join(tag.split()) #print(time.split())
data = { 'url' : url, 'title' : title, 'time' : timec.split(), 'type' : type, 'price' : price, 'place' : placeb, 'new' : tag
}
ganji_url_info.insert_one(data) #向資料庫中插入一條數據；
print(data) except IndexError: 21222324252627282930

四、我們的主函數怎麼寫？
main.py
看代碼：
#先從別的文件中引入函數和數據：from multiprocessing import Poolfrom page_parsing import get_type_links,get_url_info_ganji,ganji_url_listfrom channel_extract import channel_urls#爬取所有鏈接的函數：def get_all_links_from(channel):
for i in range(1,100):
get_type_links(channel,i)#後執行這個函數用來爬取所有詳情頁的文件：if __name__ == '__main__':# pool = Pool()# # pool = Pool()# pool.map(get_url_info_ganji, [url['url'] for url in ganji_url_list.find()])# pool.close()# pool.join()#先執行下面的這個函數，用來爬取所有的鏈接：if __name__ == '__main__':
pool = Pool()
pool = Pool()
pool.map(get_all_links_from,channel_urls.split())
pool.close()
pool.join()

五、計數程序
count.py
用來顯示爬取數據的數目；
import timefrom page_parsing import ganji_url_list,ganji_url_infowhile True: # print(ganji_url_list.find().count())
# time.sleep(5)
print(ganji_url_info.find().count())
time.sleep(5)

閱讀全文

與python怎麼爬數據相關的資料

熱點內容

賣房交易都有哪些費用發布：2025-03-15 02:07:17 瀏覽：98

什麼人群會購買文旅產品發布：2025-03-15 02:05:00 瀏覽：520

電影詐騙案中代理商承擔什麼責任發布：2025-03-15 01:54:58 瀏覽：758

交易貓怎麼私信人發布：2025-03-15 01:52:40 瀏覽：530

小米5x開不了移動數據為什麼發布：2025-03-15 01:51:14 瀏覽：824

簡述現階段前沿信息技術有哪些發布：2025-03-15 01:51:12 瀏覽：775

中國有哪些幣的交易所發布：2025-03-15 01:40:20 瀏覽：563

汽車大數據分析軟體哪個比較好發布：2025-03-15 01:24:28 瀏覽：998

海南面點技術學校哪裡學發布：2025-03-15 01:03:42 瀏覽：991

aprgiac程序哪個好發布：2025-03-15 00:59:18 瀏覽：391

作家怎麼出版代理機構發布：2025-03-15 00:54:17 瀏覽：210

高技術增加值什麼意思發布：2025-03-15 00:21:15 瀏覽：316

常州專利代理要多少費用發布：2025-03-15 00:14:28 瀏覽：433

收到微信信息為什麼沒震動發布：2025-03-15 00:03:22 瀏覽：243

qq小程序游戲怎麼沒有聲音發布：2025-03-14 23:58:19 瀏覽：410

掃碼顯示信息如何製作發布：2025-03-14 23:46:33 瀏覽：131

怎麼跟顧客銷售自己的產品發布：2025-03-14 23:41:21 瀏覽：235

頭條中搜狐小程序如何收藏發布：2025-03-14 23:33:22 瀏覽：219

玻璃庫存數據哪裡看發布：2025-03-14 23:33:16 瀏覽：935

程序員一天要打多少字發布：2025-03-14 23:33:15 瀏覽：16