外行人大數據五問帶妳了解大數據。
什麽是大數據?是運營模式,是能力,是技術,還是數據收集?我們今天所說的“大數據”和過去傳統意義上的“數據”有什麽區別?大數據有什麽特點?來源有哪些?用什麽方式,等等。接下來,邊肖將帶您了解大數據。
& gt& gt& gt& gt& gt大數據概念
“大數據”是指數據量和數據類別特別大的數據集,這樣的數據集是傳統數據庫工具無法抓取、管理和處理的。“大數據”首先指的是數據量?大是指大數據集,壹般在10TB?關於規模,但是在實際應用中,很多企業用戶把多個數據集放在壹起,已經形成了PB級的數據量;其次,意味著數據的種類繁多,數據來自各種數據源,數據的類型和格式日益豐富,已經突破了以前定義的結構化數據範疇,包含了半結構化和非結構化數據。其次,數據處理速度(Velocity)快,可以在數據量巨大的情況下實時處理數據。最後壹個特點是指數據的高真實性。隨著人們對社會數據、企業內容、交易和應用數據等新數據源的興趣,傳統數據源的局限性被打破,企業越來越需要有效的信息力量來保證其真實性和安全性。
百度知道——大數據概念
大數據(Bigdata),或稱巨量數據,是指涉及的數據量巨大到無法通過目前主流的軟件工具捕捉、管理、處理和整理,以幫助企業在合理的時間內做出更積極決策的信息。大數據的4V特征:量、速、變、準。
互聯網周刊-大數據概念
“大數據”的概念遠不止是大量的數據(TB)和處理大量數據的技術,或者像所謂的“四個v”這樣簡單的概念,而是涵蓋了人們在大規模數據基礎上可以做的事情,而這些是在小規模數據基礎上無法實現的。換句話說,大數據讓我們以前所未有的方式分析海量數據,從而獲得極具價值的產品和服務或者深刻的見解,最終形成變革的力量。
研究機構Gartner——大數據概念
“大數據”是壹種海量的、高增長的、多樣化的信息資產,需要新的處理模式來擁有更強的決策力、洞察和發現力以及流程優化能力。從數據的範疇來說,“大數據”是指傳統流程或工具無法處理或分析的信息。它定義了那些超出正常處理範圍和大小的數據集,迫使用戶采用非傳統的處理方法。亞馬遜網絡服務(AWS)和大數據科學家JohnRauser提到了壹個簡單的定義:大數據是超過計算機處理能力的任何海量數據。R&D團隊對大數據的定義:“大數據是最大的宣傳技術,也是最時尚的技術。當這種現象出現時,定義就變得非常混亂。”凱利說:“大數據可能不包含所有信息,但我認為大部分是正確的。對大數據的部分看法是,它如此之大,以至於分析它需要多個工作負載,這就是AWS的定義。當妳的技術達到極限的時候,也是數據的極限。”大數據不在於如何定義,最重要的是如何使用。最大的挑戰是哪些技術可以更好地利用數據,大數據如何應用。與傳統數據庫相比,Hadoop等開源大數據分析工具的興起,以及這些非結構化數據服務的價值。
& gt& gt& gt& gt& gt大數據分析
眾所周知,大數據不是簡單的大數據事實,最重要的現實是分析大數據。只有通過分析,才能獲得大量智能的、深入的、有價值的信息。然後越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量、速度、多樣性,都表現出大數據越來越大的復雜性,所以大數據的分析方法在大數據領域顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於這樣的認識,大數據分析的常用方法和理論有哪些?
& gt& gt& gt& gt& gt大數據技術
數據采集:ETL工具負責將分布式、異構數據源中的數據,如關系數據、平面數據文件等提取到臨時中間層,進行清洗、轉換和集成,最終加載到數據倉庫或數據集市中,成為聯機分析處理和數據挖掘的基礎。
數據訪問:關系數據庫、NOSQL、SQL等。
基礎設施:雲存儲、分布式文件存儲等。
數據處理:NLP (NaturalLanguageProcessing)是研究人機交互的語言問題的學科。處理自然語言的關鍵是讓計算機“理解”自然語言,所以自然語言處理也叫NLU(natural language Understanding),也叫計算語言學。壹方面是語言信息處理的壹個分支,另壹方面是人工智能(AI)的核心課題之壹。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測和殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法和聚類法。
數據挖掘:分類、估計、預測、親和分組或關聯規則、聚類、描述和可視化、描述和可視化、復雜數據類型挖掘(文本、Web、圖形圖像、視頻、音頻等。).
模型預測:預測模型、機器學習、建模與仿真。
呈現的結果:雲計算、標簽雲、關系圖等。
& gt& gt& gt& gt& gt大數據特征
要理解大數據的概念,首先要從“大”說起,大是指數據的大小。大數據壹般是指10TB(1TB = 1024 GB)以上的數據量。大數據不同於以往的海量數據,其基本特征可以用四個V(體積、多樣性、價值和速度)來概括,即大體積、多樣性、低價值密度和高速度。
第壹,數據量巨大。從TB級跳到PB級。
第二,數據的類型很多,比如網絡日誌、視頻、圖片、地理信息等等。
第三,價值密度低。以視頻為例,在持續監控的過程中,可能有用的數據只有壹兩秒鐘。
第四,處理速度快。1第二定律。最後,這壹點也與傳統的數據挖掘技術有著本質的區別。物聯網,雲計算,移動互聯網,車聯網,手機,平板電腦,PC,遍布全球的各種傳感器,都是數據來源或者承載方式。
大數據技術是指從各類海量數據中快速獲取有價值信息的技術。解決大數據問題的核心是大數據技術。目前,“大數據”不僅僅指數據本身的規模,還包括收集數據的工具、平臺和數據分析系統。大數據研發的目的是發展大數據技術並應用於相關領域,通過解決龐大的數據處理問題,推動其突破性發展。因此,大數據時代帶來的挑戰不僅僅是如何處理海量數據獲取有價值的信息,更是如何加強大數據技術的研發,搶占時代發展的前沿。
當前,我國大數據R&D建設應重點關註以下四個方面
首先是建立壹套運行機制。大數據建設是壹項有序、動態、可持續的系統工程,必須建立良好的運行機制,推動各環節建設正規有序,實現融合,做好頂層設計。
二是規範壹套建設標準。沒有標準,就沒有體系。應針對不同主題建立大數據建設標準,覆蓋所有領域,並不斷動態更新,為實現各級各類信息系統的網絡互聯、信息交換和資源共享奠定基礎。
三是搭建* * *平臺。數據不斷流動,充分享受,才有生命力。在專題數據庫建設的基礎上,通過數據集成實現各級各類指揮信息系統的數據交換和數據共享。
四是培養專業團隊。大數據建設的每壹個環節都需要專業人員來完成。因此,需要培養和造就壹支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
& gt& gt& gt& gt& gt大數據的作用
隨著大數據時代的到來,越來越多的人認同這個判斷。那麽大數據意味著什麽,它會改變什麽?僅僅從技術角度來回答是不夠的。大數據只是壹個對象。沒有人這個主體,再大的東西也沒有意義。我們需要將大數據置於人的環境中,並理解為什麽它是時代變革的力量。
改變價值的力量
未來十年,決定中國是否有大智慧的核心意義標準(“思想家”)是國民幸福。壹個是在民生方面,通過大數據把有意義的事情說清楚,看看我們在人際關系方面是不是比以前做了更多有意義的事情;第二,體現在生態上。通過大數據,把有意義的事情說清楚,我們在天人關系上是不是比以前做了更多有意義的事情。總之,讓我們從10年前的混沌時代,走向未來10年的明朗時代。
改變經濟的力量
生產者是有價值的,消費者才是價值的意義。有意義的才是有價值的,消費者不認同的賣不出去,實現不了價值;只有消費者認同的東西才能賣出去,才能實現價值。大數據幫助我們從消費者的源頭識別意義,從而幫助生產者實現價值。這是啟動內需的原則。
改變組織的力量
隨著具有語義網特征的數據基礎設施和數據資源的發展,組織變革變得越來越不可避免。大數據會促使網絡結構產生無組織的組織力量。最先體現這種結構特征的是各種去中心化的WEB2.0應用,比如RSS、wiki、blog等等。
大數據之所以成為時代的變革力量,是因為它通過追隨意義而獲得智慧。
& gt& gt& gt& gt& gt大數據處理
大數據處理數據時代觀念的三大轉變:所有的都不應該被抽樣,效率不應該絕對準確,相關性不應該是因果關系。
大數據處理的過程
具體的大數據處理方法確實有很多,但是根據筆者長期的實踐,總結出壹個普遍適用的大數據處理流程,這個流程應該對大家理順大數據的處理有所幫助。整個處理流程可以概括為四個步驟,即采集、導入和預處理、統計和分析,最後是數據挖掘。
大數據處理之壹:采集
大數據的收集是指使用多個數據庫從客戶端(Web、App或傳感器等)接收數據。),用戶可以通過這些數據庫進行簡單的查詢和處理。例如,電子商務公司使用傳統的關系數據庫如MySQL和Oracle來存儲每筆交易的數據。此外,Redis和MongoDB等NoSQL數據庫也常用於數據收集。
在大數據采集過程中,其主要特點和挑戰是高並發,因為可能會有成千上萬的用戶同時訪問和操作,比如火車票售票網站和淘寶,其並發訪問量高峰時達到數百萬,因此需要在采集端部署大量的數據庫來支撐。而如何在這些數據庫之間進行負載均衡和碎片化,確實需要深入的思考和設計。
大數據處理II:導入/預處理
雖然采集終端本身有很多數據庫,但是要想有效的分析這些海量數據,就要把這些數據從前端導入到壹個集中式的大型分布式數據庫或者分布式存儲集群中,在導入的基礎上可以做壹些簡單的清理和預處理。也有壹些用戶在導入時會使用來自Twitter的Storm來流數據,以滿足壹些業務的實時計算需求。
導入和預處理過程的特點和挑戰主要是導入數據量大,往往達到每秒百兆甚至千兆的水平。
第三大數據處理:統計/分析
統計分析主要是利用分布式數據庫或分布式計算集群,對存儲在其中的海量數據進行分析歸類,以滿足大多數常見的分析需求。在這方面,壹些實時需求會使用EMC的GreenPlum,Oracle的Exadata,基於MySQL的Infobright,壹些批量處理或者半結構化的數據需求可以使用Hadoop。
統計與分析的主要特點和挑戰是分析涉及的數據量大,會占用大量的系統資源,尤其是I/O。
第四大數據處理:挖掘
不同於以往的統計和分析過程,數據挖掘壹般沒有預設的主題,主要基於各種算法對現有數據進行計算,從而達到預測的效果,實現壹些高層次數據分析的要求。典型的算法包括用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes。使用的主要工具是Hadoop的Mahout。這個過程的特點和挑戰是,用於挖掘的算法非常復雜,涉及的數據量和計算量非常大。常用的數據挖掘算法主要是單線程的。
整個大數據處理的壹般流程至少要滿足這四個步驟才能算比較完整的大數據處理。
& gt& gt& gt& gt& gt大數據應用及案例分析
大數據應用的關鍵和必要條件在於“IT”和“運營”的融合。當然,這裏運營的內涵可以非常廣泛,從壹個零售店的運營到壹個城市的運營。以下是我整理的關於大數據在各行業、不同組織的應用案例。特此聲明,以下案例均來自網絡。本文僅供參考,在此基礎上我簡單梳理歸類。
大數據的應用案例:醫療行業
[1] Seton Healthcare是第壹家使用IBM最新的Watson技術來分析和預測醫療保健內容的客戶。這項技術可以讓企業找到大量與患者相關的臨床醫療信息,通過大數據處理更好地分析患者信息。
[2]在加拿大多倫多的壹家醫院裏,早產兒每秒鐘有3000多個數據讀數。通過對這些數據的分析,醫院可以提前知道哪些早產兒存在問題,並采取針對性的措施,防止早產兒死亡。
[3]它讓更多的企業家更容易開發產品,比如通過社交網絡收集數據的健康應用程序。也許未來幾年,他們收集的數據會讓妳的診斷更加準確。比如,不再是成人壹天三次壹片,而是在檢測到妳血液中的藥物已經代謝完畢時,會自動提醒妳再次服藥。
大數據應用案例之壹:能源行業
[1]智能電網現在歐洲已經實現了終端,也就是所謂的智能電表。在德國,為了鼓勵使用太陽能,家裏會安裝太陽能。除了把電賣給妳,妳的太陽能有多余的電還可以買回來。通過電網每五分鐘或十分鐘收集壹次數據,收集到的數據可以用來預測客戶的用電習慣,從而推斷未來2-3個月整個電網需要多少電。有了這個預測,就可以從發電或供電企業購買壹定量的電量。因為電有點像期貨,提前買會便宜壹點,買現貨會貴壹點。通過這種預測,可以降低采購成本。
[2] Vestas風力系統依靠BigInsights軟件和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力發電機和整個風電場的最佳位置。使用大數據,以前需要幾周的時間來分析,現在只需要不到1小時就可以完成。
大數據應用案例之壹:通信行業
[1] XO通信通過使用IBM SPSS預測分析軟件,將客戶流失率降低了近壹半。XO現在可以預測客戶的行為,發現行為趨勢,找出有缺陷的環節,從而幫助企業及時采取措施留住客戶。此外,IBM新推出的Netezza網絡分析加速器將通過提供單壹端到端網絡、服務和客戶分析視圖的可擴展平臺,幫助通信企業做出更加科學合理的決策。
【2】電信運營商可以通過上千萬的客戶數據,分析出多種用戶行為和趨勢,賣給有需求的企業。這是壹個全新的信息經濟。
[3]中國移動通過大數據分析,對企業運營的全業務進行有針對性的監測、預警和跟蹤。系統第壹時間自動捕捉市場變化,然後以最快的方式推送給指定負責人,讓他在最短的時間內了解市場行情。
【4】NTT DoCoMo將手機的位置信息與互聯網上的信息相結合,為顧客提供附近餐廳的信息,並在末班車時間臨近時提供末班車信息服務。
大數據應用案例之壹:零售業
[1]“我們的壹位客戶是壹家領先的專業時裝零售商,他通過當地百貨商店、互聯網及其郵購目錄業務為客戶提供服務。公司希望為客戶提供差異化服務。如何定位公司的差異化?通過從推特和臉書收集社交信息,他們對化妝品的營銷模式有了更深入的了解。然後,他們意識到他們必須留住兩種類型的有價值的客戶:高消費者和高影響者。我希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數據和互動數據的完美結合,提供了商業挑戰的解決方案。”Informatica的技術幫助零售商利用社交平臺上的數據豐富客戶主數據,使其商業服務更具針對性。
[2]零售企業還監控顧客的店內行走和與商品的互動。他們將這些數據與交易記錄結合起來進行分析,從而對銷售哪些商品、如何擺放商品以及何時調整售價給出意見。這樣的方法已經幫助壹家領先的零售企業降低了65,438+07%的庫存,同時在保持市場份額的同時,提高了高利潤率的自有品牌商品的比例。