很久沒有看這麼厚的一本書看的津津有味了~~這本大數據從早期人類做資料紀錄的方式(例如印刷術的發明、又或是老船長們寫的航海日誌和代代口耳相傳的經驗說),到現今用大數據資料來作決策未公司和社會帶來利益,整個的發展和應用,還有對現今社會的衝擊及未來隱私的擔憂,內容很有趣,像是好多個故事拼湊起來的,每天睡前讀一點,讀了兩個月的時間終於全部讀完了!!(只恨自己沒有早一點開始讀阿~)
文章從巨量資料一開始對美國的社會帶來了一些的改變和影響開始,像是2009年H1N1流感爆發時,google怎麼用網路資料來預測哪些州可能會是發生流感的核心地區,幫助政府即時的控制疫情。又或是曾經有一間公司(Farecast)做了一個網路平台可以預測美國的機票價格走勢,也是對於當時的社會造成一時轟動。
早期人類儲存資料的成本浩大又占空間,有網路以後人們開始發展數位資訊,甚至有了雲端以後資料量已經大到可以儲存於320座亞歷山大圖書館(好像真的很龐大阿~ 亞歷山大圖書館曾經是世界上藏書最多、文種最多、書目記錄最齊全的地方) 。而隨著資料儲存的成本降低及電腦運算的進步,系統可以分析大量資料,資料分析的模式也從我們傳統認知的因果關係轉換到運用相關性來做分析,而運用大量資料(看似雜亂不堪未整理的內容)的分析得出的準確度甚至比小資料的分析來的高!我們需要拋開傳統的思維模式:因為什麼導致什麼這種舉證出來的結果,轉換為觀察幾千萬筆的資料,從中找到關聯性而得出結果...當我讀到這裡的時候真的覺得我的腦袋換新了XD
而這些資料化的過程都有著很有趣的歷史~像是以前的航海員都是聽著老船長代代相傳的路線在海中行駛,因為水手們不敢貿然的開拓新的路線(可能遇到反向的風或洋流),所以常常會有一些繞遠路的行程。而擔任美國海圖儀器保管站的站長的莫銳,從老船長們代代相傳的經驗知識和日誌中發現了風向和洋流其實都是有相當的規律,他把塵封已久的日誌拿出來整理資料後繪了一份新的海圖,為了提高精確度要求美國的艦艇分別記下了溫度、風向、海流、月份等等的紀錄,把這些內容進行分析,於西元1855年出版了"海洋自然地理學",為當時的海上科技開啟了新的殿堂。人們開始量化各種東西,這就是資料化,而隨著科技的發展,人們開始數位化。
這些資料化的數據,對於我們的經濟和社會發展有著著實的利益。所以企業或政府開始收集資料(根據企業的性質不同收集不同的資料,例如:個資、汽車零件的故障率、棒球的上壘率等等),擁有這些資料就可以對我們的經濟和生活帶來更有益的發展,例如:預測城市中哪些地方的地下管線可能爆炸、預測消費者可能會購買哪一類型的產品、預測飛機誤點的可能性、甚至是預測犯罪的可能。許多科技龍頭企業正在使用著這些資料做延伸性的開發,甚至可以跨產業的開發,為企業謀取更多的利潤。
然而資料分析的蓬勃發展對目前社會價值觀的法律和人權也是受到了考驗,企業或政府對於個人資料的取得,未來是否會監視到個體的隱私(就像是手機都會偷偷把你的使用資料回傳到手機公司,而透過你的手機回傳的資料就可以分析你平常的生活作息等狀況,往好的方面想是公司可以根據這些資料分析來開發出更人性化或方便的科技產品,但往壞的一方想如果這些資料被拿來不法的濫用呢?)是否有需要新的法規來管控資料呢? 消費者是不是要更有意識的授權個資的取用? 而以前人們做決策的時候頃向於詢問專家意見,現在都是看數據資料表來做判斷,的確是更為精準,但這種資料獨裁的狀況也是有所隱憂。
另外太過於依賴資料也會造成很大的錯誤,因為資料內容並也有可能是刻意偽造的(資料的品質不良),如果你只專注於資料上的數字可能會導致嚴重的後果。就像資料界的人有一句話"如果輸入的是垃圾,輸出的也就是垃圾",這可以說明了ㄧ些資料中的問題。我覺得自己是一個很擅長使用網路收集資料的人,甚至平常的生活中有什麼不懂的就是立馬拿手機出來google,尤其是吃餐廳一定看網路評價(除了Google上餐廳的評價還有部落客的評價等),評價大概要至少有4顆星且評價人數不低於50人才會決定去吃,對於網路資訊的依賴真的很大,而我也發現就像文中也提到過度的資料依賴可能造成的誤導,以我個人的狀況為例來說很多商品或餐廳都會請部落客或寫手為他們寫文章....產品品質到底有沒有如內容般真實呢? 呵呵~
這是一個新的科技世代的崛起,正在全新的改變世界,巨量資料的運作規模,也已經超過普通人能理解的範圍,所以我們需要新的專家 - 演算學家。他們有能力查核巨量資料的應用程式,來防止詐欺或是改善公司的資料運作。而各國政府的政策和法令也要跟上科技的腳步做調整,確實的維護巨量資料的市場。過去我們的思維只接受正確、精準、乾淨的資料來做運用,然而這大大的限制住了資料的分析,巨量資料可以接受一些的雜亂就可以擁有更完整的資料。這告訴我們不用追根究柢,只有找出原因,做出更好的選擇,就足夠了,這也是我們需要跟進的觀念。我們從巨量資料可以看到的未來:如果想應對全球氣候的變遷,我們需要努力的分析污染資料找出重點,並尋找方法來解決。
巨量資料是一種工具,我們需要理智的、有人性的去使用它,幫入我們改善目前的生活,讓世界變得更美好。
全文的大意經過我個人的理解後大概是如上,這本書分成了10個章節,每個章節都列舉了很多不同的例子說明,我覺得內容一點都不枯燥乏味(不然我怎麼會看完它!!),書中有更深入的探討各個所面臨的問題和政策可以怎麼執行,如果對這一塊感興趣的朋友真的可以去買來看!我對科技的進步有很多的敬佩阿(科技進步的速度太快了~怎麼才覺得才剛開始雲端的世界又來到了大數據的世界)~~~相信不久機器人統治人類的世界也不遠了(誤~~)