倍可親

回復: 1
列印 上一主題 下一主題

學習時間丨8張圖帶你了解數據科學中的術語定義和關聯

[複製鏈接]

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
跳轉到指定樓層
樓主
新鮮人 發表於 2019-2-18 09:38 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  2019-02-15 12:30公司/人工智慧/數據分析

  數據科學——許多人試圖用不同的成果來定義這個流行詞。考慮到這個問題,我們可以理解與數據科學相關的所有其他領域——業務分析,數據分析,商業智能,高級分析,機器學習以及最終的AI。

  數據科學的「絕對定義」需要理解很多「數據科學」背景,這是一個遞歸問題。假設是統計學家或程序員比歷史學家或語言學家更容易理解什麼是數據科學,因為前者已經以某種形式接觸過數據科學。

  這使我們意識到數據科學的「相對定義」可能更有用,這裡我們提出的方案。它是描繪所有上述領域的歐拉圖。每種顏色代表不同的領域(混合顏色表示交叉點),有時間軸和示例用途。

  

  矩形的位置,大小和顏色代表概念上的相似點和不同點,而不是複雜性

  業務

  為避免過度簡化問題,我們假設「業務」一詞不需要定義。一些業務活動的例子是:

  商業案例研究

  定性分析

  初級數據報告

  可視化報告

  創建儀錶板

  銷售預測

  

  他們舒服地坐在藍色的長方形中

  數據

  數據是歐拉圖實際開始的地方。如果我們將數據也包含在圖中,我們將有兩個大的區域和它們的交集,或者總共三個部分。

  鑒於我們的初始術語選擇,我們可以在業務和數據的交集中移動最後四個術語,表示為下圖中的紫色區域。這是因為「初級數據報告」,「可視化報告」,「創建儀錶板」和「銷售預測」都是數據驅動的業務活動。

  他們與「商業案例研究」和「定性分析」是相反的,因為這些都屬於商業領域,但都基於過去的知識,經驗和行為。這些都很重要,但很快就可以看到——這不是真正的數據科學。

  

  分析與解析

  分析是指將問題分解為易於理解的塊的過程,您可以單獨研究這些塊並檢查它們之間的相互關係。

  另一方面,解析是邏輯和計算推理在分析得到的組成部件中的應用。在這樣做的過程中,人們在尋找模式,並經常探索將來可以用它們做些什麼。因此,我們應該更好地使用業務分析和數據分析,而不是業務和數據。

  時間

  在繼續之前,讓我們介紹一個時間線,因為它對後續的分段至關重要。我們將採用三種狀態——過去,現在和未來。

  將一條線穿過圖表,指示任何分析問題的當前時刻。左側的所有內容都將指向回看的分析,以及過去的分析。右邊的所有內容都是指預測分析。

  我們分析的最後兩部分得到了這一點。

  

  「銷售預測」向右移動,因為它的名字意味著前瞻性的分析過程。從廣義上講,「定性分析」是指利用您的直覺和經驗來規劃您的下一步行動——這是另一個展望未來的術語。

  數據科學

  對於大多數讀者來說,這是文章的頂峰。數據科學是一個離不開數據的領域。因此,它屬於數據分析領域。

  它與商業分析的關係如何?事實證明,同時所有的數據分析和業務分析確實是數據科學。

  

  但需要注意一點。會存在一些數據科學過程,這些過程不是直接和立即的業務分析,而是數據分析。例如,「鑽井作業優化」需要數據科學工具和技術。數據科學家可能每天都這樣做。然而,在「石油業務」領域,我們不能說它與業務分析直接相關。

  帶著「相對定義」的概念,為了更好地說明這些要點,我們舉「數字信號處理」的例子,它是數據分析的一部分活動,但不是數據科學,也不是商業分析。數據,編程和數學發揮作用,但與我們在數據科學中使用它們的方式不同。

  為了保持一致性,讓我們用時間線完成——數據科學既在線的左側又在右側(與其他一樣)。

  這帶來了一個問題:是否存在一個只在過去的領域?

  商業智能

  商業智能(BI)是分析和報告歷史數據的過程。

  

  它是過去的嗎?不一定,但它不涉及預測分析。回歸,分類和所有其他典型的預測方法都是數據科學的一部分,但不是BI。這就是要畫線的位置。

  此外,商業智能完全是數據科學的一個子集。因此,當一個人處理過去事件的描述性統計,報告或可視化時,她正在做BI和數據科學。

  機器學習與AI

  這裡的定義會有點模糊,因為只是解釋機器學習和AI會導致失去本文的重點。此外,也有很多關於機器學習的資源。

  人工智慧(AI)是機器顯示的任何形式的智能,類似於自然(人類)智能,如計劃,學習,解決問題等。機器學習(ML)是機器在沒有明確編程的情況下預測結果的能力。

  機器學習是人工智慧的一種方法,然而,這兩者經常混淆,因為機器學習實際上是我們作為人類迄今已發展的唯一可行的人工智慧路徑。因此,當我們談論公司正在使用的人工智慧的真實應用時,我們實際上指的是機器學習。

  在我們的圖表中,這兩個術語符合以下方式。

  

  機器學習完全在數據分析中,因為沒有數據就無法執行。它也與數據科學重疊,因為它是數據科學家庫中最好的工具之一。最後,只要不涉及預測分析,它也會參與BI。

  實例機器學習在數據科學是「客戶留存」,「反欺詐」和「創建實時儀錶板」(也是一部分BI)。突出的例子包括「語音識別」和「圖像識別」。兩者都既可以被視為在數據科學內部也可以視為在數據科學外部,這就是我們將它們放置在邊界上的原因。

  為了消除所有關聯,機器學習完全在人工智慧中,但AI本身具有與業務和數據分析無關的子領域!我們選擇的一個例子是「符號推理」。

 
知之為知之,不知為不知,是知也

海納百川,  有容乃大

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
沙發
 樓主| 新鮮人 發表於 2019-2-18 09:39 | 只看該作者
 高級分析

  我們分析的最後一個領域是高等分析。它不是數據科學術語,而是營銷術語。它用於描述「不那麼容易處理」的分析。主觀上,對於初學者,此圖中的所有內容都是高等的。雖然不是最好的術語,但匯總我們在整篇文章中使用的所有「正確」術語絕對有用。

  刪除AI並添加高級分析,這就是我們得到的圖。

  

  值此,我們對高級分析的分析已經完成。

  原文作者:Iliya Valchanov,365 Data Science聯合創始人

  翻譯:TDU

  本文轉自: TalkingData數據學堂

  AI,數據科學與分析在2018年的發展及2019年的趨勢預測

知之為知之,不知為不知,是知也

海納百川,  有容乃大
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2024-4-26 23:28

快速回復 返回頂部 返回列表