倍可親

新興職業:數據科學家(ZT)

作者:cstar  於 2010-3-11 18:14 發表於 最熱鬧的華人社交網路--貝殼村

作者分類:轉貼|通用分類:職場內外

伍加

世界正在朝著數字化方向飛速發展:數字媒體、數字電話、數字社區、數字政府、電子病歷、虛擬世界,等等。當世界越來越數字化時,電子信息不斷增加,海量數據不斷膨脹,分析和理解數據就變得越來越重要。

世界上最大的連鎖零售企業沃爾瑪每小時處理一百多萬個客戶,每小時向它的後台服務部的資料庫存入2.5 petabytes 的信息,這相當於 167 個美國國會圖書館的藏書信息。沃爾瑪的信息主管(Chief Information Officer)Rollin Ford 說:「我每天早晨反覆問自己,我怎樣才能把這些海量信息處理好、管理好、分析好?」 Facebook 存有400 億張照片,每天都有成千上萬的新照片加入進去。人類基因庫含有 30 億對基因組,針對某組基因製造出「定向」藥品已經進入試驗階段,它需要對基因庫進行快速查詢。對海量信息的處理和管理顯得日益重要,因此一種新的職業「數據科學家」會應運而生。

數字化和信息爆炸會不會帶來不良後果?信息太多了會讓人們感到無所適從;數據無所不在時會出現信息安全的問題,那些不該公布的信息會引起不良後果。比如加 州歐克蘭城市警察局辦了一個網站叫做「歐克蘭犯罪觀察」,它把奧克蘭市警察逮捕罪犯的數據全都公布出來,比如何時何地由於何種原因警察逮捕了何人,等等。根據這些歷史信息,人們發現奧克蘭警察從來不在星期三晚上掃黃打非,這就給做皮肉生意的犯罪分子有機可乘。當然,這只是並不普遍的疏漏而已。利弊相比,數字化和信息爆炸為人類生活帶來的還是利大於弊。

數據已成為企業的原材料,以數據為中心的經濟正在出現。商業智情,也稱作BI(它是英文單詞Business Intelligence的縮寫),就是利用對大量的數據進行分析、挖掘、和綜合,從而為企業決策做出有效的幫助。所以,商業智情可以算作數據科學家的工作內容之一。一些比較專業化的數據科學家也會出現,比如數據分析師、數據挖掘師、數據可視化設計師等等。

數據科學家需要有軟體工程、統計學、圖形學、數據挖掘等領域的知識。面對信息爆炸,面對海量數據,簡單的表格(spreadsheet)工具已經過時。大多數的商業應用需要根據海量數據迅速作出決策,這就需要有對各種數據進行去粗取精、去偽存真、由此及彼、由表及裡的有效分析工具,因為那些海量信息可以來自於各類報表,同時也來自於各個部門的異種資料庫,還有大量的數據來自於網際網路,它們有各自不同的數據格式和存取方式。簡單地說,數據科學家需要具備三種能力,精通四門學科。這三種能力是:
  1. 統計分析能力;
  2. 對數據的提取與綜合能力;以及
  3. 數據的可視化表示能力。
數據科學家要熟悉的四門學科是:
  1. 計算機科學:主要用來數據獲取、數據解析、數據存放、和數據安全。
  2. 數理統計學:主要用來數據分析、數據過濾、數據挖掘、和數據優化。
  3. 圖形設計學:主要用來顯示數據結果,比如將數據表達成三維圖形,以便更好地理解和利用。
  4. 人機交互學:主要用來在用戶和數據之間建立有機聯繫,使得人對數據的使用更方便。

目前,我們看到許多在這四門學科中某個學科的專才,將來更需要的是熟悉所有這四門學科知識的通才,這就是數據科學家。

高興

感動

同情

搞笑

難過

拍磚

支持

鮮花

評論 (0 個評論)

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-6-25 09:12

返回頂部