A. 如何進行資料庫數據採集
關注一下.建議先研究下dz論壇附帶的個人空間那個採集器再來研究如何用java實現吧,功能要先弄清楚了才能實現.
要弄明白如何從網上採集到相關的數據?
如何把數據寫入自己的資料庫?
最後如何把這些數據放到自己網站對應的模塊裡面去?
B. 數據採集怎麼操作的呢
互聯網上呈現的內容都是數據信息,所以互聯網數據採集又稱為信息採集。做數據採集一般用爬蟲,但要避開屏蔽,一般衡量數據採集用的指標是信息容量、採集頻率。 如果自己要做數據採集需要耗費大量的伺服器,還有數據清洗處理,可以直接調用網上現成的免費數據採集介面,現在網上開源的代碼也很多,比如慢慢買商品比價數據採集介面、網路信息數據採集介面、QQ音樂數據採集介面等,網上直接搜索調研即可。
C. 如何收集數據
採集的樣本要能夠代表總體,並且分布均勻
根據任務目標的不同,明確待採集樣本的總體。不能把調研女性購物習慣的問卷廣泛的撒給包括男生在內的所有人群,要精準投放調查。不能只調研商場購物的女性的特點,而忽略網路購物,小市場購物,海淘購物等女性客戶的特點,要分布均勻。
明確記錄樣本採集的條件和環境
不同條件下的采樣樣本,會有不同的表現。要詳細的記錄采樣時的上下文,這樣才能在以後分析的時候明確哪些可能是干擾因素,也能夠幫助理解數據分析看到的一些現象。
使用高效的采樣工具
只有數據量大到一定程度,才具有統計學的意義,我們才可以根據數據分析結果得到統計學上的結論。因此,在短時間內,以較少的人力物力獲得樣本是很重要和必要的。如果研究領域有現成的采樣工具就再好不過了,務必在采樣之前詳細調研和分析現有的采樣工具,或者自行研究高效的采樣工具和設計采樣方法。
預處理樣本
採集到的數據質量參差不齊,會有數據錯誤,數據丟失的現象存在。因此,在真正利用數據進行分析之前,要對數據進行清洗。主要需要解決的問題是:如何使用殘缺樣本?某些樣本有部分數據殘缺,是因為沒有采樣到呢?還是因為某些樣本就不應該有這些數據?需要人工分析下原因,再決定以何種方式補全樣本的殘缺屬性或者丟棄樣本。
利用統計指標或數據挖掘技術合理分析樣本
當採集好了大量的數據,肉眼是無法了解數據說明什麼問題的。因此需要使用統計學上的常見指標或者數據挖掘技術來分析樣本。統計學上的指標一般有概率分布,中位數,期望,方差,相關系數等。數據挖掘技術一般有聚類,分類,關聯分析,時序分析等。
分析統計結果的具體含義
統計學的結果得到了之後,我們還需要理解各個參數能夠說明什麼問題。這些參數的表現是否符合人們的常識和規律,如果不符合是因為什麼原因造成的。然後根據統計結果來得出結論或者繼續修正樣本採集和分析的任務。
7
備份樣本和各個階段的預處理樣本
最重要的,好不容易採集好的樣本,丟了或者弄出錯實在可惜。所以要認真備份原始的樣本以及各個階段的預處理樣本和相應的處理方法。這樣即使當前數據出了錯誤,還可以回滾到原始的版本,而不會沒有樣本可用。
D. 怎麼做數據採集
分析頁面源代碼,結構化其中的數據(主要是字元串的處理和匹配,推薦正則表達式)
另外說一句,你這樣是不厚道的
E. 收集數據的基本方法
1、當面調查詢問法。優點:較機動靈活,不受時間、地點的限制,得到的資料也往往比較真實。缺點:所花費的人力、物力、財力會比較大。
2、電話調查法。
3、會議調查詢問法。缺點:存在從眾的心理,受影響大,調查會的效果好壞與會議組織者的組織能力、業務水平和工作能力有很大的關系。
4、郵寄調查詢問法。缺點:所花的時間比較長、最大的問題是回收率低。
5、問卷調查詢問法。優點:費用適中,回收率較高,效果良好。
(5)怎麼收集數據擴展閱讀:
信息採集技術:
1、全自動電話訪談(CATS)
近年來出現的一種使用內置聲音回答技術,取代了傳統的調研方式和電話訪談。她利用專業調研員的錄音來代替訪問員逐字逐句地念出問題及答案。回答者可以將封閉式問題答案通過電話上的撥號盤鍵入,開放式問題的答案則被逐一錄在磁帶上。
2、互動式計算機輔助電話訪談(CATS)
互動式計算機輔助電話訪談是中心控制電話訪談的「電腦化」形式,每一位訪問員各坐在一台計算機終端或個人電腦前,當被訪問者電話被接通後,訪問員通過一個或幾個鍵啟動機器開始提問,問題和多選題的答案便立刻出現在屏幕上。這一方法省略了數據的編輯及錄入的步驟。
3、電腦櫃調研
電腦櫃調研是一種類似於公用電話亭的電腦直接訪談調研方式帶觸摸屏的計算機存放在可自由移動的櫃子里,計算機可以設計程序以指導復雜的調研,並顯示出全顏色的掃描圖像(產品、商店外觀等),還可以播放聲音和電視影像。
F. 如何進行數據採集以及數據分析
如何進行數據採集以及數據分析?可以從免費輿情監測系統 輿情調查軟體就從輿情監測系統的架構說起是,因為他們的技術手段都是一樣的呢
1、輿情採集系統:
一、只要是互聯網上發生的與「我」相關的輿情信息,都可以第一時間監測到,並且以最直觀的方式顯示出來,「一網打盡,一目瞭然」。監測網站類型包括:新聞、論壇、博客、貼吧、微博、電子報、搜索引擎等。
二、對於重點輿情以及負面信息通過手機簡訊等方式及時預警,不需要有專人值守就可以隨時掌握輿情。
三、自動分析輿情信息的發展變化趨勢、輿情信息的首發網站、作者、轉載情況、熱度變化、評估干預處理之後的效果等。
四、自動生成各種統計分析報表和輿情報告,助力輿情工作。配合相應的工作機制,可以有效提升輿情監管的質量和效率,提升輿情應對水平。
五、除了提供系統級7*24小時的運維服務,還配備專門的輿情分析師協助監測,人工預警。 系統建設目標是整合互聯網信息渠道,形成系統、有效的輿情監測機制。實現系統運行,監控互聯網信息、新浪、騰訊等主要微博微博,對其進行實時數據採集、全網監控、分析、檢索,對敏感信息進行預警,防止負面信息傳播,對重大事件做出最及時的反應和相應處理建議。並對近一段時期的熱點問題、敏感詞句進行搜索,從而掌握網路輿情,輔助領導決策服務。 主要的門戶網站,主要的報紙、主要的大型網路論壇、社區、貼吧、博客、微博。例如新浪新聞、各大報紙的電子報、天涯論壇、新浪微博、網路貼吧等。 各類與我相關的以及區域內有影響力的網站。 網路、谷歌、360搜索等搜索引擎。 論壇搜索,博客搜索、微博搜索等專業搜索引擎。 重點網站提供的站內搜索等。
2、輿情分析系統:
分析引擎是本系統的關鍵組成部分。其主要作用是對採集系統採集的數據,自動進行智能分析。分析引擎的主要功能包括:自定分析輿情級別、自動生成熱點、負面輿情研判、自動分類、自動生成專題、轉載計算、自動抽取輿情要素和關鍵詞、自動摘要、自動預警、自動生成統計圖表等功能。例如:多瑞科輿情數據分析站系統引擎內置了政府輿情模型、企業輿情模型和垂直監控模型,這些分析模型,是在多年輿情行業中按照客戶的實際需求,不斷重構和完善起來的,具有良好的實際應用效果。在實際項目中,不用通過二次開發就可以全面滿足政府、企業單獨應用。或者通過SAAS平台完成從上到下的垂直監測需求。對於特殊的應用需要,分析引擎還支持擴展插件,用於快速完成二次開發,支持各種需求定製。
3、輿情服務平台:
主要是用戶進行日常輿情管理的平台,能夠及時接受輿情信息,進行一些常規的輿情管理工作。
G. 大數據怎麼收集
一般來說,有些人尋找數據,是為了做出正確的商業決策;有些人要完善自己的技能,在事業上更上層樓;另一些人或為社會,或為科學而搜尋數據。
特別是,有些人收集詳細的數據,是為了做出統計分析,卻不知道絕大多數的人可以找到已經為他們做好了一部分統計分析的資訊,包括報告、表單數據的總匯,甚至只是具體事實,幾乎所有的人都能夠找到對他們有用的數據。
由於不知道怎樣尋找豐富的數據,許多人根本不去尋找。他們根據自己的個人觀點做決定,或者根據新聞報導做決定,即使使用數據,也不知道使用對他們有用的數據類型或數據的來源。
想要找到需要的數據,必須要有明確的目標,和使用它的目地。資訊的目標越清晰,找到合適的資源就越容易。
下面是四種主要的數據來源,可以引導你找到最好的數據。
1)內部資訊
自己工作單位裡面已經有的資訊,是獲取數據首先應該考慮的地方。你可以找到對你的機構特別相關的、競爭者找不到的,詳細的數據。
這並不容易,你必須明白是什麼部門收集和保存這些數據,如何能夠訪問這個網址,以及允許什麼樣的用途。這是為什麼明確的、詳細的目標是如此的重要。
你可能需要向管理階層提出正式申請,獲得准許,而成功與否則要看你的特定目標和一個清晰的商業案例。
拒絕走後門或捷徑的誘惑。 你的IT部門設下的規則也許讓你頭痛, 但是它們的設立是為了保證你的工作單位遵守法律。
2)政府及非營利組織
如果你必須從單位以外的地方搜尋數據,一定要盡量從政府機構或非營利組織搜尋資料。每一個政府機構都會收集數據,而且它們有法律上的義務同公眾分享,至少分享一部分數據。 海量多的資料就在電腦、電話或公共圖書館里,等你使用。
政府機構的數據有些是交易型的 ,就是為了做出分析,特別收集起來的一份政府活動記錄或統計; 例如財產轉讓和投票記錄,就是交易型的數據。人口普查是統計數據,消費物價指數也是。雖然交易數據通常只有詳細的表格,例如個人的交易記錄,但是為了保護個人隱私,統計數據通常是匯總的型態。
有些機構的數據比別的機構有用,但是首先你得找到這個機構才能找到其它。需要一般美國人的數據,找美國人口普查局;需要知道豬腩的價格,找農業部。網上有一個門戶網站data.gov,可以幫你找到數據,但是如果你不熟悉術語或找不到正確的名稱,別放棄,可以打電話到似乎最適合的機構去問。
許多非營利組織是他們的專業領域中良好的數據來源。例如企業信息,就要調查相關的行業協會。一個很好的資料來源是《協會網路全書》( Encyclopedia of Associations),包含有企業協會、社會事業協會和研究協會。這本書在大多數公共圖書館和大學圖書館里都可以找到。 記住,這些機構通常分享的資訊都是報告的形式,不是數據,所以向他們申請資訊時要說清楚你要的是數據。
如果網上找到的數據來源不明確、不對應,不要使用它。網上浮動的數據集對於練習數據分析的人可能很有用, 但是如果你要靠它來決定策略,你最好知道它的正確來源。
3)商業性
如果你需要的數據無法從內部、政府機構,或非營利組織得到,不妨考慮購買它。 有些由政府收集和格式化的數據意義重大,價錢也便宜。不過要小心,並非所有的商業性數據的質量都好。在花費大價錢購買以前,問問出售者數據是怎樣得到的,如何處理的,並且調查一些樣本。
4)收集新的數據
最後一招是,由於數據根本不存在,而無法找到時,不妨自己出去收集一下。這要看你需要的是什麼數據。你可以根據你所需要的數據,進行一項調查,安裝感測器或派人出去觀察、衡量,得出數據。這可能會即花時間又花錢,好處是你收集的數據是你真正需要的,而且完全屬於你自己。
H. 如何收集大數據
可用爬蟲爬取。既然是大數據,相信需要的體量不會太小吧,個人系統爬取難度和成本應該不會很小,建議找一家做大數據的公司代勞,省時省力,也花不了多少錢。
I. 如何收集經濟類數據
1首先我們必須要明確一下什麼是收集經濟類數據,所謂的收集經濟類數據收集就是指通過一定的方法去收集相關的數據,目的是為了滿足一定的調查或工作的需要,從而為正確的決策做出相關的基礎。
2收集經濟類數據的方法是多種多樣的,尤其是在如今的社會里。其中我們用的最多的一個方法是調查問卷法,這個方法用的是極其的多,這種方法主要是先設計一個相關的問卷,然後發放匯總。
3但是隨著社會和時代的發展,調查問卷法也在不斷的更新。現在比較流行的就是線上調查問卷的方式,直接是通過線上,而不是在把相關的調查問卷下發,這也是科技下的產物。
4收集經濟類數據的方法還有實地調研方法,這種方法花費的成本較高,但是數據的真實性和准確性是極高的,於是這種方法成為大多數的學者和專家的調查的方式。
5另外,收集經濟類數據的方法也包括在網上的資料庫中去尋找,如果有現成的話,就是比較好的,有些數據我們可以直接在相關的官方的資料庫中去尋找即可。
6收集經濟類數據的方法有全面普查,抽樣調查等。還包括隨機抽樣的方法,其實在我們平時的調查中,用的最多的就是隨機抽樣調查方法。簡便易行,可操作性強。
7總之,收集經濟類數據的方法也是隨著我們要做的調研的不同而不同的。對於不同的調查要分情況去選擇。