每個人都應該知道的25個大數據術語

華盛頓人 · 發表於 2018-2-8 11:54

　　2018-02-07 13:19大數據/數據分析/操作系統

　　摘要：如果你初來乍到，大數據看起來很嚇人!根據你掌握的基本理論，讓我們專註於一些關鍵術語以此給你的約會對象、老闆、家人或者任何一個人帶來深刻的印象。讓我們開始吧： 1.演演算法。「演演算法」如何與大數據相關?即使演演算法是一個通用術語，但大數據分析使其在當代更受青睞和流行。

　　點此查看原文：http://click.aliyun.com/m/27352/

　　如果你初來乍到，大數據看起來很嚇人!根據你掌握的基本理論，讓我們專註於一些關鍵術語以此給你的約會對象、老闆、家人或者任何一個人帶來深刻的印象。

　　

　　讓我們開始吧：

　　1.MaxCompute（原名ODPS）。由中國阿里雲自主研發的大數據平台產品MaxCompute，它能提供快速、完全託管的PB級數據倉庫解決方案，可以經濟並高效的分析處理海量數據，為全球60個國家，180萬家企業提供計算能力。https://www.aliyun.com/product/odps 同類開源產品有Hadoop，資料地址 https://yq.aliyun.com/articles/78108 。

　　2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費佔比呢?那你便是在做「分析」了。你正從一堆原始數據中來吸取經驗，以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型，接下來便繼續本話題進行依次討論。

　　3.描述性分析。剛剛如果你告訴我，去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項，這種便是描述性分析。當然你還可以參考更多的細節。

　　4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析，並且劃分具有一定的連續性，則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是，這並不是「預測未來」，而是未來可能會發生的「概率」。在大數據預測分析中，數據科學家可能會使用類似機器學習、高級的統計過程(後文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

　　5.規範分析。沿用信用卡交易的案例，你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規範分析建立在預測分析的基礎之上，包含了「行動」記錄(例如減少食品、服裝、娛樂支出)，並分析所得結果來「規定」最佳類別以減少總體支出。你可以嘗試將其發散到大數據，並設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

　　6.批處理。雖然批量數據處理在大型機時代就早已出現，但大數據交給它更多大數據集處理，因此賦予了批處理更多的意義。對於一段時間內收集到的一組事務，批量數據處理為處理大量數據提供了一種有效的方法。後文將介紹的MaxCompute便是專註於批量數據處理。

　　7.Cassandra是由Apache Software Foundation管理的一款流行的開源資料庫管理系統。很多大數據技術都歸功於Apache，其中Cassandra的設計初衷便是處理跨分散式伺服器的大量數據。

　　8.雲計算。顯而易見雲計算已經變得無所不在，所以本文可能無須贅述，但為了文章的完整性還是佐以介紹。雲計算的本質是在遠程伺服器上運行的軟體和(/或)數據託管，並允許從網際網路上的任何地方進行訪問。

　　9.集群計算。它是一種利用多台伺服器的彙集資源的「集群」來進行計算的奇特方式。在了解了更多技術之後，我們可能還會討論節點、集群管理層、負載平衡和并行處理等。

　　10.黑暗數據。依我看來，這個詞適用於那些嚇得六神無主的高級管理層們。從根本上來說，黑暗數據是指那些被企業收集和處理但又不用於任何有意義用途的數據，因此描述它是「黑暗的」，它們可能永遠被埋沒。它們可能是社交網路信息流、呼叫中心日誌、會議筆記，諸如此類。人們做出了諸多估計，在60-90%的所有企業數據都可能是「黑暗數據」，但無人真正知曉。

　　11.數據湖。當我第一次聽到這個詞的時候，我真的以為有人在開愚人節的玩笑。但它真的是個術語!數據湖是一個原始格式的企業級數據的大型存儲庫。雖然此處討論的是數據湖，但有必要再一起討論下數據倉庫，因為數據湖和數據倉庫在概念上是極其相似的，都是企業級數據的存儲庫，但在清理和與其他數據源集成之後的結構化格式上有所區別。數據倉庫常用於常規數據(但不完全)。據說數據湖能夠讓用戶輕鬆訪問企業級數據，用戶真正按需知道自己正在尋找的是什麼、如何處理並讓其智能化使用。

　　12.數據挖掘。數據挖掘是指利用複雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語「分析」密切相關。為了提取出有意義的模式，數據挖掘者使用統計學(是呀，好老的數學)、機器學習演演算法和人工智慧。

　　13.數據科學家。我們談論的是一個如此熱門的職業!數據科學家們可以通過提取原始數據(難道是從前文所說的數據湖中提取的?)，處理數據，然後提出新見解。數據科學家所需具備的一些技能與超人無異：分析、統計、計算機科學、創造力、故事講述和理解業務環境。難怪他們能獲得如此高的薪水報酬。

　　14.分散式文件系統。由於大數據太大而無法在單個系統上進行存儲，分散式文件系統提供一種數據存儲系統，方便跨多個存儲設備進行大量數據的存放，並有助於降低大量數據存儲的成本和複雜度。

　　15.ETL。ETL分別是extract，transform，load的首字母縮寫，代表提取、轉化和載入的過程。它具體是指「提取」原始數據，通過數據清洗/修飾的方式進行「轉化」以獲得「適合使用」的數據，進而「載入」到合適的存儲庫中供系統使用的整個過程。儘管ETL這一概念源於數據倉庫，但現在也適用於其它情景下的過程，例如在大數據系統中從外部數據源獲取/吸收數據。

　　16.演演算法。「演演算法」如何與大數據相關?即使演演算法是一個通用術語，但大數據分析使其在當代更受青睞和流行。

　　17.內存計算。一般來說，任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、並避免了將中間計算寫入磁碟的技術。Apache Spark便是一種內存內計算系統，它與I / O相比，在像MaxCompute MapReduce這樣的系統上綁定具有巨大的優勢。

　　18.IOT。最新的流行語是物聯網(Internet of things，簡稱IOT)。IOT是通過網際網路將嵌入式對象(感測器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起，並且能夠發送/接收數據。IOT產生了大量的數據，這為呈現大數據分析提供了更多的機會。

　　19.機器學習。機器學習是為了設計一種基於提供的數據能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的演演算法進行學習並專註於實現「正確的」行為模式和簡見解，隨著越來越多的數據注入系統它還在不斷進行優化改進。典型的應用有欺詐檢測、在線個性化推薦等。

　　20.MapReduce。MapReduce的概念可能會有點混亂，但讓我試一試。MapReduce是一個編程模型，最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下，編程模型首先將大數據的數據集分成幾個部分(技術術語上是稱作「元組」，但本文並不想太過技術性)，因此可以部署到不同位置的不同計算機上(即前文所述的集群計算)，這些本質上是Map的組成部分。接下來該模型收集到所有結果並將「減少」到同一份報告中。 MapReduce的數據處理模型與MaxCompute的分散式文件系統相輔相成。

　　21.NoSQL。乍一聽這像是針對傳統關係型資料庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language，結構化查詢語言)的抗議，其實NoSQL代表的是NOT ONLY SQL，意即「不僅僅是SQL」。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作「圖表」(例如關係型資料庫的表)等數據的資料庫管理系統。NoSQL資料庫一般非常適用於大型數據系統，這得益於它們的靈活性以及大型非結構化資料庫所必備的分散式結構。

　　22.R語言。有人能想到比這個編程語言更糟糕的名字嗎?是的，』R』是一門在統計計算中表現非常優異的編程語言。如果你連』R』都不知道，那你就不是數據科學家。(如果你不知道』R』，就請不要把那些糟糕的代碼發給我了)。這就是在數據科學中最受歡迎的語言之一的R語言。

　　23.Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎，它可以高效執行需要快速迭代訪問數據集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

　　24.流處理。流處理旨在通過「連續」查詢對實時和流數據進行操作。結合流分析(即在流內同時進行連續計算數學或統計分析的能力)，流處理解決方案可以被用來實時處理非常大的數據。

　　25.結構化和非結構化數據。這是大數據5V中的「Variety」多樣性。結構化數據是能夠放入關係型資料庫的最基本的數據類型，通過表的組織方式可以聯繫到任何其他數據。非結構化數據則是所有不能直接存入關係資料庫中的數據，例如電子郵件、社交媒體上的帖子、人類錄音等

每個人都應該知道的25個大數據術語

瀏覽過的版塊

　每個人都應該知道的25個大數據術語