現在 換巨量資料說話了
|
- 作者:麥爾荀伯格、庫基耶 (Viktor Mayer-Schonberger、Kenneth Cukier)
- 譯者:林俊宏
- 出版社:遠見天下
- 出版日期:2013年05月30日
- 我的推薦指數:★★★★☆
|
巨量資料說:美國冬天即將爆發流感
Google 工程師透過民眾在網路上搜尋啥資料(關鍵字),和過去的流感爆發軌跡進行比較。找出了在地區、時間和關鍵字間在統計學上的相關性模型。
人們開始又在查那些關鍵字時,Google 就可以即時判斷哪些地區已經爆發流感。
巨量資料說:物價上漲了
透過分析網路上各式各樣商品網站、消費資訊的變化,可以快速推測出物價趨勢。
要買便宜機票,透過旅展~ 遜~ 讓巨量資料告訴你何時買最省錢!!
巨量資料說:別違背你的慾望了,買吧!!
Amazon 透過比較產品本身之間的異同,來進行協同篩選;一方面可以事先處理,另方面可以跨種類,不必限定於書籍。透過分析,可以掌握客戶究竟喜歡啥!?
琳瑯滿目放滿商品介紹的電子商務網站~ 遜!! 網站只要秀一項商品就夠了~ 只秀你要買的那一項就夠了。
巨量資料說:看來,你印堂發黑?? 只怕在劫難逃!!
Aviva 利用各項生活指標、興趣、上網時間等… 和健康資料進行模型分析。可以推測出投保對象的健康風險。
啥? 投保還要做驗血做健康檢查!! 填寫一份問卷就可以了。
巨量資料說:恭喜!! 你女兒懷孕了??
Target 利用消費者採買紀錄,進行生活行為分析。在採買行為改變時,推測出你生活上的重大改變!!
啥?? 她還沒結婚?? 喔~ 我們資料庫還沒有找出孩子的爹的能力呦。
巨量資料說:先開兩瓶香檳~ 明天股市可是會大漲耶!!
Derwent Capital 和 MarketPsych 透過分析網路上的投資理財資訊所跟隨的推文討論,進行發言者情緒分析,來預測投資大眾 是樂觀、悲觀 …
甚麼!? 你還傻傻的每周早上去學校聽無牌老師唬爛!!!!! 不是我預知未來,而是未來的資料告訴了我。
巨量資料說:雙手舉起來,你已經被包圍了
透過犯罪行為分析,與再犯風險指數評估,可以推測出罪行發生的機會。
你犯了,你即將要犯的罪了。
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※
巨量資料的精神:不精確,才準確
過去我們以為資料是靜態的,用過就沒用處。但現在資料成為新的商業的生產原料。因為當資料巨量超過一定規模時,就可用來做些新的事,包括取得新觀點、創造新價值。所謂的巨量,並不見得一定是非常多。它的重點在 “完整的全部資料”。
巨量資料的核心運用原則,並不是去強調他的因果,而是探討統計學上的相關性。巨量資料無法用來教電腦怎麼做,但是可用來推斷機率,用基於手中確實的資料去預測即將發生的事。
透過雲端技術進行巨量資料運算,找出事物的預測模型。這個模型不用解釋 “WHY” (為何會如此)只要說出 “WHAT” (正是如此發生)。重點在看出各個資料片段間的關係,並加以分析出相關性,讓資料自己跟你說話。
三個資料處理原則的改變:
- 要有針對特定主題分析龐大資料整體的能力
- 接受資料是雜亂的,無法精確的
- 更看重相關性
在 big data 的世界裡,資料越多比資料品質越好更重要。一方面因為從機率來看,資料越多出錯的可能性就越高,所以要求資料多又正確事件矛盾的事。二方面雜亂資料的原因則是因為我們想要接收更多種來源的資料,所以不同來源資料本身精確度、格式、描述方式都可能不同。
所以我們接受一些雜亂與容忍一些錯誤,才能換得更多回報的資料。而這些犧牲一點精確度的資料,可以讓我們看出整體的大趨勢,找出可能性。
這類資料庫做出的分析較不精確,所以無法用在發射太空梭、計算銀行帳戶金額。但可以快速處理巨量資料來找出不需要絕對精確的答案。當原先要1個月才能跑完的資料,10分鐘就可算完時,速度可帶來了在商業上革命性的運用,百分百精準也就不再具影響力,我們只要知道可能的答案即可。
就像真實世界中,很多事情並非存在百分百標準的答案一樣。擁抱這個新改變,反而能讓我們更往真實接近一大步。
擁抱不精確,宏觀新世界
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※
甚麼都可以資料化
當一切都可成為資料,用途將無窮無盡。資料是指能記錄、分析、重組的事物。過去我們以為的資料是平面的,但當我們加上了 "位置" 作為資料,瞬間資訊立體了起來。不僅是你人在哪裡,也包括了你的游標逛過哪些網站等。還延伸到你的社交生活圈的關係。
因此,用大家的手機的訊號與所在位置與行進狀況,可以即時預報出路況。商店地板裝上感應器,可以分析出人流,停留駐足的商品。你和別人的人際互動資料,如Facebook 社交圖譜,可以看出你的個性,因為花錢小心的人、他結交的朋友也會是勤儉的,你互動最多的朋友,肯定跟你志趣相投。而你發表的貼文隱含的情緒起伏也將成為預測社會事件發展的基礎。
可以想見,將不同的資料相結合進行混搭(Mashup),會來釋放潛藏的更大資料價值。資料化將給我們工具,讓我們能用資料繪出世界的真實樣貌。更棒的是,資料是非競爭性商品;某個人使用並不妨礙其他人的使用,也不會耗損。我們不必擁有,也能充分運用。目前很多國家的政府都試著開發政府資料,讓民間可以更有效率的運用這些資料,如美國的data.gov。或將手上的資料拿出來賣如Windows Azure Marketplace;資料市場已經開始形成…
Data as a Service
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※
巨量資料服務的價值鏈
在巨量資料時代,除了學科專業知識要有足夠深度外,寬度也很重要。小型企業的優勢是低成本與創意,既沒有拖累的規模 (scale without mass),也沒有可觀的實質資源,但可以靠創新的點子而成功
三個資料價值鏈環節 :
# 資料持有人 #
握有資料存取權,可以收取資料提供費 或 自己從資料中分析並獲利
# 資料專家 #
擁有相關專業知識或技術,能夠進行複雜的分析
# 巨量資料思維者 #
可以比別人早一步看到機會,看到可能性,而不會受到可行性的限制;他們沒有資料,甚至沒有技術,但反而能讓他們放膽思考
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※
巨量資料的黑暗面
其實我們一直被監控,只要使用信用卡付款、用手機連絡、或用身分證號… 就會連下紀錄。因為網路出現後,追蹤與收集個資變得更容易了。… 而且不僅知道我們的喜好(Amazon)、知道我們的心情(推特)、了解我們的社交圈(facebook)、知道我們在看啥與在哪裡(google)。想保護自己的隱私權難上加難,甚至資料的洩漏來自你想不到的地方;如智慧電表的使用,透過不同的負載訊跡 (load signature) 就可透露出許多私人的行為資訊、日常起居作息 …。資訊的運用已不再是我們想像的原始價值。
當然,每個網站都有提供審視隱私權條款的機會,但誰有去看或能理解其中內容 !!?? 有些網站提供匿名服務,像 Google 街景可塗銷房屋,結果更明顯此地無銀300兩。資料會透露出各種跡證,可以找出那個人。
我們總以為我們是安全的,是有馬賽克保護的...
當我們任由資料來管控我們,則造成的傷害絕不下於資料帶來的好處。因此我要善用 而非被巨量資料所掌控。
要淡化巨量資料黑暗面的影響,就找出全新的模型,除了用戶要對自己的行為負責外,也要有專業的機構來為被傷害者發聲。
一方面,也要保障每個人的「能動性」(human agency),也就是人類出於自由意志而選擇其行動。當我們運用預測的能力愈來越高,會使我們想要透過資料的分析預測,就對他人的行為妄下判斷,而不是從他們真正的所作所為。這將使得我們的個人抉擇、個人自由,變得無足輕重。長期下來,將使社會失去了進步的動力。
二方面,要管好「資料大亨」,資訊社會的資料,就像是工業時代的燃料,將是大眾賴以創新的關鍵。若被把持的少數人手中,就會扼殺創造力。
最後,要要時時銘記在心,就是要尊重「人的意志」,要相信人類有依道德抉擇的能力。不要讓黑暗的誘惑影響了我們的判斷。
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※
巨量資料的未來
巨量資料分析師與工具,將會是配有水晶球的巫師,能看見未來。當資料開始說話,一切大不同,可能將重塑我們的生活、工作與思考方式;但同時也挑戰我們過去所信仰的價值,個人隱私可能蕩然無存。
巨量資料將使我們成為過去行為的囚徒,如果這個是世界都是由資料來告訴我們,該如何決定,那人們活著或者你我的直覺,又還有甚麼意義?
但人類偉大之處就是那些無法資料化的特質,也正因為資料無法預測不存在的東西,因此我們更該去培養我們的創造力、直覺…
也許巨量資料帶給我們巨大的知識,但千萬別忘了它背後的不完美。工具只是提供有參考價值的見解,但永遠不會是最終的最佳解答,也因此引用這項工具時,我們該更加的謙卑與更加的記得自己的人性。
巨量資料只是工具,勿忘謙卑與人性
※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※