忘掉開放資料吧!回歸資料運用本身!
由 科技新報 於 六, 2014/05/31 - 11:10am 發表

http://www.cool3c.com/article/81300

談起開放資料,最近沉寂不少。原因很多,包括能供應開放資料大宗的政府,並沒有釋出夠重量級的資料集出來。像是前陣子財政部基於政治考量,不公佈 20 等分位的賦稅資料分佈。由於政府資料大都是一般人民難以自行收集,政府各機關的態度影響開放資料甚大。這次台北市電腦公會,鎖定媒體從業人員,辦理開放資料媒體研討會,實則是資料研討會。活動請來的兩位講者李怡志和羅佩琪談的是資料運用,說是開放資料就不怎麼精確了。如同兩位講者都有說到,請忘記開放資料這件事情,我們談的是資料運用。

百年前的疾病追追追,如何找到倫敦霍亂大爆發原因

電腦公會請來李怡志,談資料分析。目前在 Yahoo 台灣工作的李怡志,擁有相當長時間經驗處理資料運用在報導上,為公認的資料視覺化專家。對於 Open Data,由於現在有用、有價值分析的資料釋出不多,他也說自己算是跑資料分析來做新聞,資料來源大都不是開放資料,並不算開放資料專家。他做得是資料新聞學 (data journalism)-用資料為依據來做新聞報導。資料視覺化則是讓數據圖形化,能讓人一面瞭然因果關係,重點更凸顯出來。

▲ 官方常常提供看似很齊全的資料,但細看下沒辦法繼續追查下去

李怡志融合資料視覺化始祖 John Snow 與自身跑新聞的經驗,做了真假參雜的情境故事,將講到爛掉的經典資料視覺化, 倫敦霍亂大爆發的故事給予現代化的意義。這邊提到的 John Snow 並不是冰與火之歌那一位鎮守北方的私生子,而是當時在倫敦行醫的醫生,李怡志在演說中將他比喻為記者,追查倫敦霍亂爆發背後的真相。1854 年倫敦爆發霍亂大流行,John Snow 從官方拿到病例資料,但無法繼續追查下去,只好一戶一戶親自拜訪調查。最後用點狀分佈圖呈現水井與病例的空間分佈,找出蘇活區霍亂來源是某一口井水污染造成,進而讓當局封掉這口井,不再使用。John Snow 也被視公共衛生的始祖。

▲ 圖片來源:By John Snow (Rewardiv at en.wikipedia) [Public domain], from Wikimedia Commons

▲ 用現代化的技術熱力圖呈現病例的情形。圖片來源:Flesh and Bone


▲ 李怡志用臺灣的報紙現況模仿 1854 年倫敦霍亂大爆發,蘋果日報可能的頭版處理方式

▲ 李怡志用臺灣的報紙現況模仿 1854 年倫敦霍亂大爆發,聯合報可能的頭版處理方式

▲ 李怡志用病例資料舉例,去除可識別個人的案例資料,可以做不少事情

4 月 9 日,美國聯邦政府 CMS (the Centers for Medicare & Medicaid Services)為了政府透明及開放的概念,將 2012 年的健康保險給付開放釋出。由於資料量相當大,總共有 88 萬健康照護機構的給付資料,直接就在網站上講說請別用用 Excel 處理所有資料,因為沒辦法直接分析所有資料。除了提供 CSV 檔之外,Excel 檔得依字母分成好幾個檔案。

一般媒體除了直接分析資料當作報導素材以外,針對這些健保給付資料,還有很多不同的運用方式。像是 Pro Publica 賣整理好的資料給其他媒體,就不只是媒體的角色。或者是追求影響力,像華爾街日報為例,做出工具幫助小媒體,方便依照不同查詢條件,運用這些整理過的資料。

▲ 華爾街日報將 2012 年的給付資料整理好,做出查詢介面

李怡志舉了幾個運用數據到報導的例子,像是衛報等做資料新聞學的媒體,將報導所本的數據,附上原始數據。如果想要驗證報導或是做衍生報導的人,可以直接用原始數據。李怡志分析方仰寧粉絲團按讚數,李怡志把自己收集的原始資料放出來,有興趣的人可以進一步分析,有人做圖發生方仰寧粉絲團的人數與生長曲線相仿。

▲ 方仰寧粉絲團的成長人數曲線

arrow
arrow
    全站熱搜

    nicecasio 發表在 痞客邦 留言(0) 人氣()