❶ 製作一個大數據故事的5個步驟
製作一個大數據故事的5個步驟
從事數據工作很多年,我總結了一套好的實用方法與大家分享。它不是唯一的方法,但對於我來說,它是一種用數據講故事的最好方法。
第一步:數字化我不用太強調。這些日子,我努力將每個故事數字化,包括筆記、圖片、音頻、視頻和文檔。怎麼做?一些實用的工具如下:
軟體DocumentCloud ——允許你上傳PDF文件並且實現光學字元識別,也叫OCR。OCR可以掃描文檔,並將其轉化為可搜索的文件。它並不完美,但這是一個開始。
軟體DocumentCloud 也有驚人的嵌入特徵,允許你強調和注釋段落。最後,它擁有一個復雜卻很有用的時間軸和一個很棒的實體識別引擎。IRE(美國無線電工程師學會)可以使用。
DocumentCloud軟體允許你上傳PDF文件,並且實現光學字元識別。
谷歌文檔——和DocumentCloud功能差不多,而且能很好地適應使用谷歌套件的新聞編輯室,同時能自動完成光學字元識別文檔。
文字記錄——海外文字記錄服務已經將費用降低到每分鍾1美分,而且工作質量不錯。所以,當你有一個重要采訪需要傳到網上,這是個很好的方法。不久的將來這些肯定會轉變,但是費用會明顯增加,例如每分鍾3美元。rev.com, TranscriptionAssociates, Transcribe, andTranscribeMe服務都能提供很棒的文字記錄服務。警告:如果這是一個關鍵引用,請回放錄音,就像美國國家橄欖球聯盟那樣。
光學字元識別掃描——如果你有大量紙質文件需要轉換成可索引的PDF文件,通常最便宜的方法是在城鎮找一家合法的服務公司。他們每頁收費15到25美分,所以,即使你有數百頁紙需要掃描,價格也不會太貴。合法服務公司速度很快,而且他們有高質量的光學字元識別儀器用來識別文檔並將他們轉換成可以搜索的文本。
Excel或Google Spreadsheets(電子表格工具)——我的所有工作幾乎都用Excel或Google Spreadsheets完成。使用Excel不一定非要有一個計算機資料庫。它可以很方便地創建、分類和組織很小的信息表。比如,關於在伊拉克受傷的平民承包商的故事,我的腦海中立馬會浮現很多事。於是,我建立了一個涵蓋約30個案例的電子表格,並添加了少量的數據。
Idea Organizers——如果是一項大的工程,你可以考慮使用與Office軟體一體化的印象筆記或 Microsoft』s OneNote這樣的特殊組織軟體。這些精心設計的軟體可以粘貼至網頁,追蹤數據來源和組織數據。在工作中我很少使用這些軟體,但很多人喜歡它,因為它可以將所有的東西放到一個軟體包里。
類似於印象筆記這樣的程序能夠幫助你組織數據和理念。
第二步:數據化幾乎每個故事都可以從數據之中獲益。數據有助於將故事置於背景中,使你的故事脫穎而出,而這點也越來越容易做到。
數據分析不必太復雜。它可以像寫一樁謀殺案,並指出今年和去年的謀殺案數量對比那樣簡單。它也可以像上市公司追溯期權支付的多元回歸分析那樣的復雜。
但重點是:數據總是存在的。不要逃避它,而應該去利用它。
試試這個練習。隨機抽出一張報紙,翻開一個頁面。先看前幾個故事,問問自己:這個故事還可以添加哪些背景?
如何找數據?你可以從這幾個聯邦一級的網站上開始著手。你會發現州政府和地方政府往往比聯邦政府回復地更快。
data.gov——聯邦政府數據的主要存儲庫。按照主題和機構,你可以搜索到聯邦調查局已公開發布的數據集。
在Data.Gov,你可以搜索到聯邦調查局已公開發布的數據集。
fbo.gov——所有聯邦政府外包出去參加投標的名單。有關項目和聯系人姓名的有用信息。
USAspending.gov——列出所有已授權的政府合同和分包合同,是fbo.gov的後續跟進。通過關鍵字搜索,可以找到你所在的國家或城鎮的合同。
Enigma.io——由政府、大學、企業和組織提供的數據集的奇妙融合。
Govzilla——這個網站專門為獲取競爭情報而創建,但包含了許多驚人有用的信息自由法信息。從本質上講,該網站不斷為一些機構,包括美國食品葯物管理局、美國國稅局和美國國立衛生研究院,提供信息自由法的審查報告。它們的成本較高。但是如果你需要最新的數據,就在這兒搜索。
Dataportals——試圖收集世界上所有公開的的數據源。無論成功與否,它都有大量實用的國際數據。
第三步:年表化無論你的調查性報道採取何種形式,或長或短,敘述性或主題性,人物主導或話題性,總存在一定順序。
當我坐下來寫報道時,第一件事就是創建一個時間軸。為了理清哥倫比亞北部一個叫聖多明哥村莊的轟炸事件,我創建了一份長達11頁的時間軸。它的確對我弄清事件的發展有很大的幫助。
更近的一個例子,關於創建利比亞內戰歷史的時間軸,就有98頁467,18個字。一個龐大的工程?是的,但總體而言它很有必要。
時間軸的三點好處
幫助你看到你可能會漏掉的關系。幫助你快速查閱事件。你可以將事件源頭包含在時間軸里,這樣就可以記住一個特殊信息是從何而來。我傾向於使用電子表格創建時間軸。但是,稍作提示,你也可以在 Word 中創建時間軸,只要你使用像 YYYY-MM-DD 這樣的日期格式去開始這一段文字。若以此格式開頭,Word 會將段落按照日期排序。所以你可以在 Word 文檔底部輸入信息,然後只需確保時間軸是按時間排序即可。
依我拙見,在報道方面依然需要時間軸工具。它們更注重作品本身而非數據收集。有些基於網路的工具,比如Tiki Toki(互動式多媒體時間軸製作應用)和Dipity(在線時間軸應用服務),還有來自北卡羅來納大學騎士實驗室的軟體版本(比如timelinejs)或非盈利新聞機構ProPublica的TimelineSetter。但不論哪一個,我都不太滿意。一個電子表格或Word文檔足以滿足工作需求。
第四步:人格化現在我們要著手處理工作了。你需要讓故事說話,那將意味著要有會講故事的人。
當我做筆記或與某人交談時,我總是在一些聽起來不錯的引語前標記上星號。這樣,當我回顧筆記時,只用尋找星號去創建一個引語集就可以。然後從引語集中找出最好的10條、15條或20條引語。其次,還有另外兩個原因:
它可以幫助你組織故事。你可以開始構思過渡段、出人意料的結局或開放式結尾,這將幫助你塑造整個故事。確保故事能得到爆炸般的劇烈反響。你在努力尋找短小精悍的信息,言簡意賅的說,它可以幫助你從這一切中篩選出最好的。另一件大事是尋找人物。當然,這並不總是可行的。如果你有一個故事,需要花費大量時間在許多人物上,你最好按照年表順序簡單表述,讓時間成為主線。也許沒有一個人物能夠很好地融於整個故事,那麼最壞的打算就是盡力讓一個人物「適應」一件軼事。
另一方面,如果你有一個能滔滔不絕舉出例證的人物,他有著強大而動人的生活故事,能夠很好地闡明你要說的內容,這就意味著你擁有了「魔法」。盡最大努力去講述他的故事。
第五步:敘述化這是非常難的部分。你要弄清楚如何去講述一個故事。然而,好的消息是,在一到三的步驟中,你可以得到暗示知道你都要做些什麼。
我最喜歡的故事結構是時間軸的方式。如果你在展現故事時或多或少地用到時間軸,它將會幫助讀者理解正在發生的事,使得事件之間的聯系更加明朗化,更具有可讀性。事實上,我說時間軸是講述任何故事的唯一方式可能會招來責難。
一般來說,我會寫一個梗概來總結故事和要點。通常我會試圖找到一個能快速識別的點或者簡單的硬新聞,以便於我的查看。然後我會填充核心段落、一些重要的發現和一系列對於發現的即時反應。
這些總共會佔到10到15個段落。到那時候,讀者就會知道這篇文章是否值得花時間深入閱讀。高潮過後,我會中止,然後順著時間軸來展開餘下的故事。
我的第二種選擇是主題式文章。換句話說,我會分塊來闡述主題。我將其稱為混合體模式。但即使是這樣,我也會盡可能順著時間軸,用一些不超出主題范圍的軼事來充實故事。
以上是我講故事的方式。雖然按照步驟寫了下來,但我寫故事的進度幾乎和時間平行。從報告的開始,我就在想怎樣使故事更具人格化和敘事性。我正在從事數據化工作。當我發現更多數據、更多人物或者當數據化揭示新趨勢的時候,它沒有以固定的順序發生,而是以一種不斷反復的方式進行。
這是一個任重而道遠的過程。但在最後,我認為讀者意在尋求一種有力量、敘述生動且內容豐富的的故事。我們不能總是發表那些奇怪事物、縮減的能源和瀕危物種的故事。但我們可以努力改變。當我們找對了方向,那將會不同凡響。
以上是小編為大家分享的關於製作一個大數據故事的5個步驟的相關內容,更多信息可以關注環球青藤分享更多干貨