深入分析大數據的革命性前景
“大數據”是目前比較時髦的壹個名詞,是技術界用來解決世界上最棘手問題的全能方法。這個術語壹般用來描述分析海量信息以發現規律、收集有價值的見解和預測復雜問題答案的技能和科學。這聽起來可能有點無聊,但從阻止恐怖分子,到消除貧困,到拯救地球,對於大數據的倡導者來說,沒有什麽是解決不了的。
維克多?邁耶-勛伯格和肯尼斯?在《大數據:壹場將改變我們生活、工作和思維方式的革命》壹書中,丘吉爾歡呼道:“對社會的好處將是無窮無盡的,因為大數據將在某種程度上解決緊迫的全球問題,如應對氣候變化、根除疾病以及促進善治和經濟發展。”
只要有足夠多的數據可以處理——無論是妳iPhone上的數據、買菜的數據、在線約會網站的個人簡介還是整個國家的匿名健康記錄,人們都可以通過使用解碼這些原始數據的計算能力來獲得無數有價值的見解。就連奧巴馬政府也趕上了這壹趨勢,並於5月9日向企業家、研究人員和公眾發布了大量“以前難以獲取或管理的數據”。
然而,大數據真的正是人們所吹噓的嗎?我們能相信眾多的1和0會揭示人類行為的秘密世界嗎?以下是筆者對所謂大數據理論的思考。
1.“有了足夠的數據,數字就能說明壹切”
不會吧。大數據的倡導者希望我們相信,在代碼行和龐大的數據庫背後,有關於人類行為模式的客觀和普遍的寶貴見解,無論是消費者支出模式、犯罪或恐怖行動、健康習慣還是員工生產力。但許多大數據的鼓吹者不願意正視其缺點。
數字不能自己說話,數據集——無論大小——仍然是人類設計的產物。大數據的工具——比如ApacheHadoop軟件框架——無法擺脫曲解、隔閡和錯誤的刻板印象。
當大數據試圖反映我們所處的社會世界時,這些因素就變得尤為重要,但我們常常愚蠢地認為這些結果總是比人為的意見更客觀。偏見和盲點存在於大數據中,就像存在於個人的感受和經歷中壹樣。然而,有壹個令人懷疑的信念,即數據越大越好,相關性相當於因果關系。
例如,社交媒體是大數據分析的常見信息源,毫無疑問,那裏有大量信息可以挖掘。我們被告知,Twitter數據顯示,離家越遠的人越快樂,他們在周四晚上最抑郁。但是有很多理由質疑這些數據的意義。首先,我們從皮尤研究中心了解到,美國只有65,438+06%的成年人使用Twitter,所以他們絕對不是壹個有代表性的樣本——與整體人口相比,他們中的年輕人和城市人更多。
此外,我們知道很多Twitter賬戶都是自動程序,稱為“機器人”程序、假賬戶或“半機器人”系統(即由機器人程序輔助的人工控制的賬戶)。最近的估計顯示,可能有多達2000萬個假賬戶。所以即使我們想踏入如何評估Twitter用戶情緒的方法論雷區,我們還是要問壹下這些情緒是來自真人還是自動化算法系統。
2.“大數據將使我們的城市變得更加智能和高效”
在某種程度上,是的。大數據可以提供有價值的見解來幫助改善我們的城市,但它只能幫助我們。由於數據在生成或收集的過程中並不都是平等的,因此在大型數據集中存在壹個“信號問題”——即壹些人和社區被忽略或沒有被完全代表,這就是所謂的數據暗區或陰影區。因此,大數據在城市規劃中的應用很大程度上取決於市政官員對數據及其局限性的理解。
例如,波士頓的StreetBump應用程序是壹種低成本收集信息的聰明方法。該程序從駛過坑窪的司機的智能手機上收集數據。更多類似的應用正在出現。然而,如果城市開始只依賴智能手機用戶的信息,那麽這些公民只是壹個自我選擇的樣本——這必然會導致智能手機用戶較少的社區缺乏數據,這些社區通常包括老年人和不那麽富裕的公民。
盡管波士頓的新城市機械辦公室做出了許多努力來彌補這些潛在的數據缺陷,但不太負責任的公職人員可能會錯過這些補救措施,最終得到不平衡的數據,從而進壹步加劇現有的社會不公。人們只要回顧壹下2012高估年度流感發病率的“谷歌流感趨勢”,就能意識到依賴有缺陷的大數據可能對公共服務和公共政策產生的影響。
在網上公布政府數據的“開放政府”項目也是如此,如Data.gov網站和白宮開放政府項目。更多的數據可能不會改善政府的任何職能,包括透明度和問責制,除非有壹種機制讓公眾與公共機構保持聯系,更不用說促進政府解釋數據和以足夠的資源做出反應的能力。這些都不容易。其實我們身邊並沒有多少高技能的數據科學家。大學現在爭相定義這個領域,開發課程,滿足市場需求。
3.“對於不同的社會群體,大數據不會厚此薄彼”幾乎不是這樣。對大數據客觀性的另壹個期望是,對少數民族的歧視會減少,因為原始數據總是不包含社會偏見,這使得分析能夠在整體層面上進行,從而避免基於群體的歧視。但是,由於大數據可以對群體的不同行為做出判斷,因此它們的使用通常只是為了達到壹個目的——即把不同的個體歸入不同的群體。例如,最近的壹篇論文指出,科學家允許他們的種族偏見影響基因組的大數據研究。
大數據可能被用來進行價格歧視,從而引起嚴重的民權問題。這種做法在歷史上曾被稱為“劃紅線”。最近,劍橋大學對臉書的58000個“喜歡”標簽進行了大數據研究,用於預測用戶極其敏感的個人信息,如性取向、種族、宗教和政治觀點、性格特征、智力水平、快樂與否、成癮藥物使用、父母的婚姻狀況、年齡和性別。
記者湯姆?Form對這項研究的評價是:“這種容易獲取且高度敏感的信息可能被雇主、房東、政府部門、教育機構和私人組織用來歧視和懲罰個人。而人沒有任何手段去抗爭。”
最後,考慮對執法的影響。從華盛頓到特拉華州紐卡斯爾縣,警方正在轉向大數據的“預測警務”模型,希望為冷案的偵破提供線索,甚至有助於預防未來的犯罪。但是,讓警察專註於大數據發現的特定“熱點”,有強化警察對名聲不好的社會群體的懷疑,使差異化執法成為制度的危險。
正如壹名警察局長在壹篇文章中指出的,雖然預測性的警察登記制度沒有考慮種族和性別等因素,但使用這壹制度的實際結果可能“導致警察與社區的關系惡化,使公眾感到缺乏司法程序,導致種族歧視的指控,並威脅到警察的合法性”。
4.“大數據是匿名的,所以不會侵犯我們的隱私。”
大錯特錯。雖然很多大數據的提供者都在盡力消除面向人類的數據集中的個體身份,但是身份重新確認的風險還是很大的。手機數據可能看起來相當匿名,但最近壹項對歐洲654.38+0.5萬手機用戶數據集的研究表明,只需要4個參考因素就可以逐壹確認其中95%的人的身份。
研究人員指出,人們在城市中走的道路是獨特的,鑒於可以從大量公共數據集推斷出大量信息,個人隱私已經成為壹個“日益嚴重的問題”。
然而,大數據的隱私問題遠遠超出了常規身份確認風險的範疇。目前出售給分析公司的醫療數據可能會用於追蹤您的身份。現在有很多關於個性化醫療的談論,人們希望未來可以為個人開發藥物和其他療法,就好像這些藥物和療法是由患者自己的DNA制成的壹樣。
就提高藥物療效而言,這是壹個美好的前景,但本質上取決於個人在分子和基因層面的認同。這些信息壹旦被不當使用或泄露,就會帶來極大的風險。雖然RunKeeper、Nike+等個人健康數據采集應用發展迅速,但在實踐中用大數據改善醫療服務仍只是願望,而非現實。
高度個性化的大型數據集將成為黑客或泄密者的主要目標。維基解密壹直處於近年來幾起最嚴重的大數據泄露事件的中心。從英國離岸金融行業大規模數據泄露事件中我們看到,和所有人壹樣,世界上最富有的1%人口的個人信息也很容易被泄露。
5.“大數據是科學的未來”
有壹部分是真的,但是需要壹些成長。大數據為科學提供了新的途徑。我們只需要看看希格斯玻色子的發現,它是歷史上最大的網格計算項目的產物。在這個項目中,CERN使用Hadoop分布式文件系統來管理所有數據。但是,除非我們認識到並開始解決大數據在反映人類生活方面的壹些固有缺點,否則我們可能會基於錯誤的偏見制定重大的公共政策和商業決策。
為了解決這個問題,數據科學家開始與社會科學家合作。隨著時間的推移,這將意味著找到壹種新的方法來將大數據戰略與小數據研究相結合。這將遠遠超出廣告行業或營銷行業所采用的做法,如中央小組或A/B測試(即向用戶展示兩個版本的設計或結果,以確定哪個版本更好)。
確切地說,新的混合方法將詢問人們為什麽做某事,而不是僅僅統計某事的頻率。這意味著除了信息檢索和機器學習,我們還將使用社會學分析和對民族學的深入了解。
科技公司早就意識到,社會科學家可以幫助他們更深入地理解人們與他們的產品發生關系的方式和原因。例如,施樂公司的研究中心聘請了先驅人類學家露西?蘇克曼。下壹階段將進壹步豐富計算機科學家、統計學家和多種社會科學家之間的合作——不僅要檢驗他們自己的研究成果,還要以更嚴格的態度提出完全不同種類的問題。
考慮到每天都會收集大量關於我們的信息,包括臉書點擊量、全球定位系統(GPS)數據、醫療處方和網飛預訂列表,我們必須決定將這些信息委托給誰以及用於什麽目的。
我們無法回避的事實是,數據絕不是中立的,保持匿名是很難的。然而,我們可以利用跨越不同領域的專業知識,以便更好地識別偏見、缺陷和偏見。
以上是邊肖為您分享的關於大數據深度分析革命性前景的相關內容。更多信息可以關註全球常春藤分享更多幹貨。