A. 常用的15個數據源網站,可以滿足你95%的日常取數需求!趕緊收藏
前面介紹過實用的效率小工具,真的幫了我很多忙,這次給小夥伴們再種草一些數據源網站。
現在有很多免費的數據可以供使用分析,不過很少有人能找的到,或者沒能力找,這就是所謂的信息差吧。其實數據獲取分為兩方面,一是「拿來的」數據,也就是現成的;二是「爬來的」數據,這種一般通過爬蟲等手段去採集數據。
「拿來的」數據可以在各大官方平台或者社區去找,一般各行各業都會有自己的資料庫。我常用的數據網站有以下這些:
網路指數: 網路搜索匯總的數據,能看到各種關鍵詞的搜索熱度趨勢,優點數據量大,能反映真實的話題熱度變化,適合做需求洞察、用戶畫像、輿情監測、市場分析。
網路指數規則,是以網民在網路的搜索量為數據基礎,以關鍵詞為統計對象,科學分析並計算出各個關鍵詞在網路網頁搜索中搜索頻次的加權和。
微信指數: 微信生態的大數據,反映關鍵詞熱度,和網路指數類似。但微信指數數據來源微信各種內容渠道,包括搜一搜、視頻號、公眾號等,適合做微信生態人群畫像、內容推廣、輿情監控的研究。
Google Trends: 和網路指數類似的產品,基於google生態匯總的大數據。比網路數據來源更豐富也更廣泛,包含了google、youtube等,畢竟是全球應用。缺點是對國內搜索分析的指導意義不大,還是網路指數更具指導意義。
微博指數: 微博內容提及量、閱讀量、互動量加權得出的綜合指數,優點比較有時效性,而且數據基數大,可以實時反映熱度變化情況,適合實時捕捉當前 社會 熱點事件、熱點話題等,快速響應輿論走向等。
這種數據包含了網站、APP、自媒體賬號等監測數據,大多是商業付費類
Alexa: 用於查詢全球網站排名和流量的平台,可以看到PV、UV、排名、區域分布等信息。
新榜: 新媒體專屬的數據平台,用於查看抖音、快手、公眾號、小紅書等平台KOL賬號的數據。數據包括了粉絲、瀏覽、互動、聲量等,一般用於廣告投放監測、自媒體數據運營等。
貓眼數據: 影視相關數據。匯總了電影票房、網播熱度、電視收視等數據,適合做票房預測、節目熱度監測。
艾瑞指數: APP、Web、手機等排行榜數據,包括各大移動設備裝機指數、APP熱度指數、PC Web熱度指數、網路廣告指數等等,適合做廣告營銷投放等。
新浪 財經 數據中心:新浪 財經 大數據,匯總了股票、基金、期貨、黃金、貨幣等各種 財經 數據,種類很齊全,應該有數據介面。
Wind:國內比較早的金融數據服務商,數據種類最齊全,而且有各種金融分析工具,也支持Python、R等量化分析。但Wind很貴,個人很難承擔的起。
Tushare: 免費的金融資料庫,支持Python介面,數據也非常齊全,包含了股票、基金、期權、債券、外匯、公司報表等各種 財經 數據。只要你會用Python,就可以調用裡面的各種數據,非常便捷。
這種一般包含政府開放數據、統計數據,以及各種民生數據。
國家統計局: 最權威的國內宏觀數據網站,包括人口、經濟、農業等等。
上海公共數據開放平台: 上海市各行各業的免費數據,對公眾開放下載,非常適合做城市規劃分析。
其他城市官方數據:
這一類數據適合做機器學習、統計分析、演算法研究等,是學術界、工業界用於數據驅動業務典型數據。
kaggle: 全球最大的數據科學比賽平台,也是google旗下的產品。kaggle擁有豐富的數據集和各種解決方案,適合對數據感興趣的小夥伴去研究學習。
天池: 阿里雲裡面的數據比賽平台,也擁有很多比賽數據,質量相對較高。
B. 有哪些網站用爬蟲爬取能得到很有價值的數據
一般有一下幾種
一些常用的方法
IP代理
對於IP代理,各個語言的Native
Request
API都提供的IP代理響應的API,
需要解決的主要就是IP源的問題了.
網路上有廉價的代理IP(1元4000個左右),
我做過簡單的測試,
100個IP中,
平均可用的在40-60左右,
訪問延遲均在200以上.
網路有高質量的代理IP出售,
前提是你有渠道.
因為使用IP代理後,
延遲加大,
失敗率提高,
所以可以將爬蟲框架中將請求設計為非同步,
將請求任務加入請求隊列(RabbitMQ,Kafka,Redis),
調用成功後再進行回調處理,
失敗則重新加入隊列.
每次請求都從IP池中取IP,
如果請求失敗則從IP池中刪除該失效的IP.
Cookies
有一些網站是基於cookies做反爬蟲,
這個基本上就是如
@朱添一
所說的,
維護一套Cookies池
注意研究下目標網站的cookies過期事件,
可以模擬瀏覽器,
定時生成cookies
限速訪問
像開多線程,循環無休眠的的暴力爬取數據,
那真是分分鍾被封IP的事,
限速訪問實現起來也挺簡單(用任務隊列實現),
效率問題也不用擔心,
一般結合IP代理已經可以很快地實現爬去目標內容.
一些坑
大批量爬取目標網站的內容後,
難免碰到紅線觸發對方的反爬蟲機制.
所以適當的告警提示爬蟲失效是很有必有的.
一般被反爬蟲後,
請求返回的HttpCode為403的失敗頁面,
有些網站還會返回輸入驗證碼(如豆瓣),
所以檢測到403調用失敗,
就發送報警,
可以結合一些監控框架,
如Metrics等,
設置短時間內,
告警到達一定閥值後,
給你發郵件,簡訊等.
當然,
單純的檢測403錯誤並不能解決所有情況.
有一些網站比較奇葩,
反爬蟲後返回的頁面仍然是200的(如去哪兒),
這時候往往爬蟲任務會進入解析階段,
解析失敗是必然的.
應對這些辦法,
也只能在解析失敗的時候,
發送報警,
當告警短時間到達一定閥值,
再觸發通知事件.
當然這個解決部分並不完美,
因為有時候,
因為網站結構改變,
而導致解析失敗,
同樣回觸發告警.
而你並不能很簡單地區分,
告警是由於哪個原因引起的.
C. 有哪些免費簡單的數據展示(數據可視化)網站
如今數據可視化成越來越多人關注的話題,但是不少人苦於Excel畫圖不好看,Tableau等軟體上手不夠快,python,R等語言可視化學習門檻高,一直沒法能上手做好數據可視化。我私以為合理利用各種輕量化在線工具結合,讓自己更方便達成目的而非糾結軟體學習使用成本更值得我們去實踐(其實我就是懶=-=)暑假到現在,自己練手了幾個數據可視化的項目,有出於個人興趣的項目,也有受人之託的房地產項目,用了挺多軟體,也走了挺多彎路,發現了幾個在線工具非常的實用,在此特地分享一下自己認為比較實用的幾個應用和他們的用途,這些在線工具雖然看似很簡單,但是結合在一起靈活使用還是有奇效的,希望大家能嘗試一下。
一.BDP個人版
類似Tableau的在線版數據可視化分析工具,相比競品大數據魔鏡更接地氣也更好用,分析模板豐富,有各種數據模板可以套用,然後換上自己的數據,就大工告成了!而且還支持製作詞雲、漏斗圖、數據地圖(自帶坐標糾偏)等各種圖表,一個比較萬用的平台,沒能力使用Tableau的人不妨試試這個平台。
二.網路圖說
大名鼎鼎的Echart改來的東西,說實話功能不太豐富,主要是專注做好一張圖,圖表自定義的選項很豐富,但有條件還是學一下Echart的代碼自己動手造圖。這個線上工具意義更多是在Excel作圖吃癟時做一張好看的圖表插入你的報告中。
三.文圖
文圖主要用在你要出一份包含文字說明的報告時使用,文圖最大的優勢就是它幫你定了主題配好了顏色!!讓你整個報告看起來風格統一很簡潔美觀!,不要以為這個不重要,多少辛苦做好的圖表單看是美如畫,幾張風格一不統一,配色一不對勁,逼格馬上就下來了好嗎???萬一的報告別的部分沒有美化過,更是白費了很多力氣。
文圖用配好色定好風格的幾個主題解決了這種問題,圖表功能該有的也都有了,而且文圖對移動端的支持真的非常好!完美適配手機端。可惜的是文圖的排版不是很好用,要有點耐心。
四.GeoQ
功能強大的數據地圖製作軟體,自身有非常強大的地理資料庫,對坐標的糾偏,地址欄位的識別支持非常好,底圖類型很多。繪圖功能完善而且強大,該有的一個不落,配上它自家的資料庫可以讓你很方便的做出想要的數據地圖。美中不足的是用戶作品界面管理體驗很差,制圖反映較慢。
部分效果預覽,可以方便的用自己上傳的數據與它提供的資料庫結合。此圖中用了自己的幾個樓盤位置和杭州商業區位置,疊加了它提供的房價數據和基於我自己數據算的熱力圖層。總之功能很強大,值得一試。
五.地圖慧
和上面一個挺像的,但地圖惠有自家的手機移動APP,可以完美在移動端上使用。但制圖體驗上個人覺得不如GeoQ來的好用,主要差在一些細節,比如自傳數據識別比不上GeoQ而且=-=比如錯了就沒法撤銷啊啊啊啊還會自動保持啊啊啊,比如下面關於上海的某類房產選址的結果圖就是個悲劇,不小心點了商城地理數據就清理不掉了=-=(圖中紅色部分)
六.創客貼
這個其實是個平面設計網站=-=不具備任何數據分析能力,但是但是,它可以拿來做可視化。主要是用在,萬一你眼饞《第一財經》那種圖表,或者覺得你就算用了可視化工具後圖表和報告還是不能很好結合在一起,感到真雞氣的時候,就該用這個了,上幾張自己的挫作,因為我個人沒什麼審美能力所以見笑了=-=
大概就是這樣=-=,不需要PS,不需要AI ID這些高大上的軟體,唯一的缺點,這東西,做數據圖表真真真雞兒難做啊,各種目測,手條=-=沒辦法,這就是懶得代價。
寫在最後:數據可視化自然是越美越好,但是,不可以捨本逐末,真正有價值的不是你的圖,而是你的數據和你的呈現的是否清晰與直觀。(比如我就有碰到過做得地圖別人一眼不看要我直接報上小區名字=-=)
轉載於giratinar的原創文章《數據可視化(三)那些好用的在線工具》;
D. 有哪些好的搜集數據的網站
網路指數
爬萌_爬盟中國
http://www.199it.com/archives/category/report
http://www.statisticbrain.com
https://www.statisticssolutions.com
http://www.bullyingstatistics.org
social-statistics.org
E. 數據爬取技術有哪些做的比較好的
知道一個數據爬取技術,瑞雪採集雲,還是有一些特點的:
瑞雪採集雲是一個PaaS在線開發平台,與圖形配置化爬蟲客戶端工具相比,瑞雪採集雲提供的是通用採集能力,能夠滿足企業客戶數據採集業務的長期需求。
主要特點如下:
(一) 一站式通用能力集成,指數級提高開發效率。平台封裝了豐富的通用功能,開發者不需要關心 Ajax和Cookie等底層細節,只需要利用平台封裝好API,把主要精力放在業務上,工作效率提供10倍。
(二) 開發自由度高,支持復雜網站的採集。支持Java/Python編寫應用插件,藉助高級語言的高自由度能夠處理復雜網站的採集。平台提供業內首個基於Web瀏覽器的在線開發環境,無需安裝任何客戶端,提高應用源代碼在客戶內部的共享。
(三) 分布式任務調度機制,並發採集效率高。把採集工作分解為多個採集工序,一個大任務被拆解為在不同工序上執行的大量小任務,然後被分配到海量爬蟲機集群上被分布式並發執行,確保系統達到最高的採集效率。
(四) 強大的任務管理機制,確保數據完整性。平台擁有強大的任務狀態機制,支持任務重發、支持利用結束碼管理任務的不同結束狀態,根據具體情況選擇不同的後續處理,保證不遺漏目標數據,確保最終目標數據的完整性。
(五) 學習時間短,能夠支撐業務的快速發展。平台提供豐富的在線幫助文檔,開發者能夠在1小時內快速掌握平台的基本使用,當有新的數據採集需求時,新的開發者能夠立即學習開發採集爬蟲程序,快速對應相關業務的發展。
(六) 支持私有化部署,保證數據安全。支持平台所有模塊的私有化部署,讓客戶擁有瑞雪採集雲平台的全部能力,保證客戶開發的應用插件代碼和目標數據的絕對安全。
F. 網站數據採集工具哪個好爬蟲之外的,謝謝!
哈看樣子你不喜歡爬蟲了,網路爬蟲有很多,只能爬網頁數據,目前操作界面有點復雜,沒有編程基礎的比較難上手
我喜歡用小幫,,小幫軟體機器人。這個傻瓜式的,只需要簡單配置就可以,不只是網頁可採集保存到本地,系統軟體也可以呢。這個靠譜,可以 試 試,。我有很多網站的有價值的數據和表格都是這么搞下來的