倍可親

回復: 1
列印 上一主題 下一主題

21個必知的數據科學面試題及答案

[複製鏈接]
跳轉到指定樓層
樓主
硨磲大爺 發表於 2016-9-8 03:51 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  

  

  Q1.解釋什麼是正則化,以及它為什麼有用。

  回答者:Matthew Mayo

  正則化是給模型添加一個調優參數的過程,來引導平滑以防止過擬合。(參考KDnuggets文章《過擬合》)

  常用方法是通過添加一個常數倍參數到現有的權向量。這個常數通常要麼是L1(Lasso)要麼是L2(ridge),但實際上可以是任何標準。該模型的測算結果的下一步應該是將正則化訓練集計算的損失函數的均值最小化。

  Xavier Amatriain在這裡向那些感興趣的人清楚的展示了L1和L2正則化之間的比較。

  

  圖1: Lp球:p的值減少,相應的L-p空間的大小也會減少。

  Q2.你最崇拜哪些數據科學家和創業公司?

  回答者:Gregory Piatetsky

  這個問題沒有標準答案,下面是我個人最崇拜的12名數據科學家,排名不分先後。

  

  Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他們對神經網路的堅持不懈的研究,和開啟了當前深度學習的革命。

  Demis Hassabis,因他在DeepMind的傑出表現——在Atari遊戲中實現了人或超人的表現和最近Go的表現。

  來自datakind的Jake Porway和芝加哥大學DSSG的Rayid Ghani因他們讓數據科學對社會產生貢獻。

  DJ Patil,美國第一首席數據科學家,利用數據科學使美國政府工作效率更高。

  Kirk D. Borne,因其在大眾傳媒中的影響力和領導力。

  Claudia Perlich,因其在廣告生態系統的貢獻,和作為kdd-2014的領頭人。

  Hilary Mason在Bitly傑出的工作,和作為一個大數據的明星激發他人。

  Usama Fayyad,展示了其領導力,為KDD和數據科學設立了高目標,這幫助我和成千上萬的人不斷激勵自己做到最好。

  Hadley Wickham,因他在數據科學和數據可視化方面的出色的成果,包括dplyr,ggplot2,和RStudio。

  數據科學領域裡有太多優秀的創業公司,但我不會在這裡列出它們,以避免利益衝突。

  Q3.如何驗證一個用多元回歸生成的對定量結果變數的預測模型。

  回答者:Matthew Mayo

  模型驗證方法:

  如果模型預測的值遠遠超出響應變數範圍,這將立即顯示較差的估計或模型不準確。

  如果值看似是合理的,檢查參數;下列情況表示較差估計或多重共線性:預期相反的跡象,不尋常的或大或小的值,或添加新數據時觀察到不一致。

  利用該模型預測新的數據,並使用計算的係數(平方)作為模型的有效性措施。

  使用數據拆分,以形成一個單獨的數據集,用於估計模型參數,另一個用於驗證預測。

  如果數據集包含一個實例的較小數字,用對摺重新採樣,測量效度與R平方和均方誤差(MSE)。

  Q4.解釋準確率和召回率。它們和ROC曲線有什麼關係?

  回答者:Gregory Piatetsky

  這是kdnuggets常見問題的答案:精度和召回

  計算精度和召回其實相當容易。想象一下10000例中有100例負數。你想預測哪一個是積極的,你選擇200個以更好的機會來捕捉100個積極的案例。你記錄下你預測的ID,當你得到實際結果時,你總結你是對的或錯的。以下是正確或錯誤的四種可能:

  TN/真負數:例負數且預測負數

  TP/真正數:例正數且預測正數

  FN/假負數:例負數但是預測負數

  FP/假正數:例負數但是預測正數

  意義何在?現在你要計算10000個例子中有多少進入了每一個bucket:

  

  現在,你的僱主會問你三個問題:

  1.你的預測正確率有幾成?

  你回答:確切值是(9760+60)除以10000=98.2%

  2.你獲得正值的例子佔多少比例?

  你回答:召回比例為60除以100=60%

  3.正值預測的百分比多少?

  你回答:精確值是60除以200=30%

  看一個維基上的精度和召回的優秀範例。

  

  圖4.精度和召回

  ROC曲線代表了靈敏度(召回)與特異性(不準確)之間的關係,常用來衡量二元分類的性能。然而,在處理高傾斜度的數據集的時候,精度-召回(PR)曲線給出一個更具代表性的表現。見Quora回答:ROC曲線和精度-召回曲線之間的區別是什麼?。

  Q5.如何證明你對一個演演算法的改進確實比什麼都不做更好?

  回答者:Anmol Rajpurohit. .

  我們會在追求快速創新中(又名「快速成名」)經常看到,違反科學方法的原則導致誤導性的創新,即有吸引力的觀點卻沒有經過嚴格的驗證。一個這樣的場景是,對於一個給定的任務:提高演演算法,產生更好的結果,你可能會有幾個關於潛在的改善想法。

  人們通常會產生的一個明顯衝動是儘快公布這些想法,並要求儘快實施它們。當被問及支持數據,往往是共享的是有限的結果,這是很有可能受到選擇偏差的影響(已知或未知)或一個誤導性的全局最小值(由於缺乏各種合適的測試數據)。

  數據科學家不讓自己的情緒操控自己的邏輯推理。但是確切的方法來證明你對一個演演算法的改進確實比什麼都不做更好將取決於實際情況,有幾個共同的指導方針:

  確保性能比較的測試數據沒有選擇偏差

  確保測試數據足夠,以成為各種真實性的數據的代表(有助於避免過擬合)

  確保「受控實驗」的原則,即在比較運行的原始演演算法和新演演算法的表現的時候,性能、測試環境(硬體等)方面必須是完全相同的。

  確保結果是可重複的,當接近類似的結果出現的時候

  檢查結果是否反映局部極大值/極小值或全局極大值/最小值

  來實現上述方針的一種常見的方式是通過A/B測試,這裡面兩個版本的演演算法是,在隨機分割的兩者之間不停地運行在類似的環境中的相當長的時間和輸入數據。這種方法是特別常見的網路分析方法。

  Q6.什麼是根本原因分析?

  回答者:Gregory Piatetsky

  根據維基百科,

  根本原因分析(RCA)是一種用於識別錯誤或問題的根源的解決方法。一個因素如果從problem-fault-sequence的循環中刪除后,阻止了最終的不良事件重複出現,則被認為是其根源;而一個因果因素則影響一個事件的結果,但不其是根本原因。

  根本原因分析最初用於分析工業事故,但現在廣泛應用於其他領域,如醫療、項目管理、軟體測試。

  這是一個來自明尼蘇達州的實用根本原因分析工具包。

  本質上,你可以找到問題的根源和原因的關係反覆問「為什麼」,直到找到問題的根源。這種技術通常被稱為「5個為什麼」,當時涉及到的問題可能比5個更少或更多。

  

  圖  5個為什麼分析實例,來自《根本原因分析的藝術》

  Q7.你是否熟悉價格優化、價格彈性、庫存管理、競爭情報?舉例說明。

  回答者:Gregory Piatetsky

  這些問題屬於經濟學範疇,不會經常用於數據科學家面試,但是值得了解。

  價格優化是使用數學工具來確定客戶會如何應對不同渠道產品和服務的不同價格。

  大數據和數據挖掘使得個性化的價格優化成為可能。現在像亞馬遜這樣的公司甚至可以進一步優化,對不同的遊客根據他們的購買歷史顯示不同的價格,儘管有強烈的爭論這否公平。

  通常所說的價格彈性是指

  需求的價格彈性,價格敏感性的衡量。它的計算方法是:

  需求的價格彈性=需求量變動%÷價格變動%。

  同樣,供應的價格彈性是一個經濟衡量標準,顯示了產品或服務的變化如何響應價格變化。

  庫存管理是一個企業在生產過程中使用的產品的訂購、儲存和使用的監督和控制,它將銷售的產品和銷售的成品數量進行監督和控制。

  維基百科定義

  競爭情報:定義、收集、分析和分發有關產品、客戶、競爭對手和所需環境的任何方面的情報,以支持管理人員和管理者為組織做出戰略決策的環境。

  像Google Trends, Alexa, Compete這樣的工具可以用來確定趨勢和分析你的競爭對手的網站。

  下面是一些有用的資源:

  競爭情報的報告指標,by Avinash Kaushik

  37款監視你的競爭對手的最好的營銷工具from KISSmetrics

  來自10位專家的10款最佳競爭情報工具

  8.什麼是統計檢定力?

  回答者:Gregory Piatetsky

  維基百科定義二元假設檢驗的統計檢定力或靈敏度為測試正確率拒絕零假設的概率(H0)在備擇假設(H1)是真的。

  換句話說,統計檢定力是一種可能性研究,研究將檢測到的效果時效果為本。統計能力越高,你就越不可能犯第二類錯誤(結論是沒有效果的,然而事實上有)。

  這裡有一些工具來計算統計功率。

  9.解釋什麼是重抽樣方法和它們為什麼有用。並說明它們的局限。

  回答者:Gregory Piatetsky

  經典的統計參數檢驗比較理論抽樣分佈。重採樣的數據驅動的,而不是理論驅動的方法,這是基於相同的樣本內重複採樣。

  重採樣指的是這樣做的方法之一

  估計樣本統計精度(中位數、方差、百分位數)利用可用數據的子集(摺疊)或隨機抽取的一組數據點置換(引導)

  在進行意義測試時,在數據點上交換標籤(置換測試),也叫做精確測試,隨機測試,或是再隨機測試)

  利用隨機子集驗證模型(引導,交叉驗證)

  維基百科里關於bootstrapping, jackknifing. 。

  見How to Check Hypotheses with Bootstrap and Apache Spark

  

  這裡是一個很好的概述重採樣統計。

  10.有太多假陽性或太多假陰性哪個相比之下更好?說明原因。

  回答者:Devendra Desale

  這取決於問題本身以及我們正在試圖解決的問題領域。

  在醫學檢驗中,假陰性可能會給病人和醫生提供一個虛假的安慰,表面上看它不存在的時候,它實際上是存在的。這有時會導致不恰當的或不充分的治療病人和他們的疾病。因此,人們會希望希望有很多假陽性。

  對於垃圾郵件過濾,當垃圾郵件過濾或垃圾郵件攔截技術錯誤地將一個合法的電子郵件信息歸類為垃圾郵件,並影響其投遞結果時,會出現假陽性。雖然大多 數反垃圾郵件策略阻止和過濾垃圾郵件的比例很高,排除沒有意義假陽性結果是一個更艱巨的任務。所以,我們更傾向於假陰性而不是假陽性。

  11。什麼是選擇偏差,為什麼它是重要的,你如何避免它?

  回答者:Matthew Mayo

  選擇偏差,一般而言,是由於一個非隨機群體樣本造成的問題。例如,如果一個給定的樣本的100個測試案例是一個60 / 20/ 15/ 5的4個類,實際上發生在在群體中相對相等的數字,那麼一個給定的模型可能會造成錯誤的假設,概率可能取決於預測因素。避免非隨機樣本是處理選擇偏差最好 的方式,但是這是不切實際的。可以引入技術,如重新採樣,和提高權重的策略,以幫助解決問題。

  特別提問:解釋什麼是過擬合,你如何控制它

  這個問題不是20問裡面的,但是可能是最關鍵的一問來幫助你分辨真假數據科學家!

  回答者:Gregory Piatetsky

  過擬合是指(機器)學習到了因偶然造成並且不能被後續研究複製的的虛假結果。

  我們經常看到報紙上的報道推翻之前的研究發現,像雞蛋不再對你的健康有害,或飽和脂肪與心臟病無關。這個問題在我們看來是很多研究人員,特別是社會科學或醫學領域的,經常犯下的數據挖掘的基本錯誤——過度擬合數據。

  研究人員了測試太多假設而沒有適當的統計控制,所以他們會碰巧發現一些有趣的事情和報告。不足為奇的是,下一次的效果,由於(至少一部分是)偶然原因,將不再明顯或不存在。

  這些研究實踐缺陷被確定,由約翰·p·a·埃尼迪斯的在他的里程碑式的論文《為什麼大多數發表的研究成果是錯誤的》(《公共科學圖書館·醫學》雜 志,2005年)中發表出來。埃尼迪斯發現,結果往往是被誇大的或不能被複制。在他的論文中,他提出了統計證據,事實上大多數聲稱的研究成果都是虛假的。

  埃尼迪斯指出,為了使研究結果是可靠的,它應該有:

  大型的樣本和大量的結果

  測試關係的數量更多,選擇更少

  在設計,定義,結果和分析模式幾個方面有更大的靈活性

  最小化偏差,依資金預算和其他因素考量(包括該科學領域的普及程度)

  不幸的是,這些規則常常被違反,導致了很多不能再現的結果。例如,標準普爾500指數被發現與孟加拉國的黃油生產密切相關(從1981年至1993年)(這裡是PDF)

  

  若想看到更多有趣的(包括完全虛假)的結果,您可以使用一些工具,如谷歌的correlate或Tyler Vigen的Spurious correlations。

  可以使用幾種方法來避免數據過擬合

  試著尋找最簡單的假設

  正規化(為複雜性添加一種處罰)

  隨機測試(使變數隨機化,在這個數據上試試你的方法——如果它發現完全相同的結果,肯定有哪裡出錯了)

  嵌套交叉驗證(在某種程度上做特徵選擇,然後在交叉驗證外層運行整個方法)

  調整錯誤發現率

  使用2015年提出的一個突破方法——可重複使用的保持法

  好的數據科學是對世界理解的前沿科學,數據科學家的責任是避免過度擬合數據,並教育公眾和媒體關於錯誤數據分析的危險性。

  另請參閱

  數據挖掘和數據科學的大缺陷:過度擬合

  一個避免過度擬合的超級想法: 在自適應數據分析中可重複使用的保持法

  可重複使用的保持法克服過度擬合:保護自適應數據分析的有效性

  11種過度擬合的「聰明方法」以及如何避免它們

  標籤:過度擬合

  Q12. 舉例說明如何使用實驗設計回答有關用戶行為的問題。

  回答者:Bhavya Geethika.

  步驟1.制定研究問題

  頁面載入時間對用戶滿意度評級的影響有哪些?

  步驟2.確定變數

  我們確定原因和結果。獨立變數——頁面載入時間,非獨立變數——用戶滿意評級

  步驟3.生成假說

  減少頁面下載時間能夠影響到用戶對一個網頁的滿意度評級。在這裡,我們分析的因素是頁面載入時間。

  

  圖12.一個有缺陷的實驗設計(漫畫)

  步驟4.確定實驗設計

  我們考量實驗的複雜性,也就是說改變一個因素或多個因素,同時在這種情況下,我們用階乘設計(2^k設計)。選擇設計也是基於目標的類型(比較、篩選、響應面)和許多其他因素。

  在這裡我們也確定包含參與者/參與者之間及二者混合模型。如,有兩個版本的頁面,一個版本的購買按鈕(行動呼籲)在左邊,另一個版本的在右邊。

  包含參與者設計——所有用戶組看到兩個版本

  參與者之間設計——一組用戶看到版本A,娶她用戶組看到版本B。

  步驟5.開發實驗任務和過程:

  詳細描述實驗的步驟、用於測量用戶行為的工具,並制定目標和成功標準。收集有關用戶參與度的定性數據,以便統計分析。

  步驟6.確定操作步驟和測量標準

  操作:一個因素的級別將被控制,其他的將用於操作,我們還要確定行為上的標準:

  在提示和行為發生之間的持續時間(用戶點擊購買了產品花了多長時間)。

  頻率-行為發生的次數(用戶點擊次數的一個給定的頁面在一個時間)

  持續-特定行為持續時間(添加所有產品的時間)

  程度-行為發生時的強烈的衝動(用戶購買商品有多快)


沙發
 樓主| 硨磲大爺 發表於 2016-9-8 03:51 | 只看該作者

  步驟7:分析結果

  識別用戶行為數據,假說成立,或根據觀察結果反駁例子:用戶滿意度評級與頁面載入時間的比重是多少。

  Q13「長」數據和「寬」數據有什麼不同之處?

  回答者:Gregory Piatetsky

  在大多數數據挖掘/數據科學應用記錄(行)比特性(列)更多——這些數據有時被稱為「高」(或「長」)的數據。

  在某些應用程序中,如基因組學和生物信息學,你可能只有一個小數量的記錄(病人),如100,或許是20000為每個病人的觀察。為了「高」工作數據的標準方法將導致過度擬合數據,所以需要特殊的方法。

  

  圖13.對於高數據和寬數據不同的方法,與表示稀疏篩查確切數據簡化,by Jieping Ye。

  問題不僅僅是重塑數據(這裡是有用的R包),還要避免假陽性,通過減少特徵找到最相關的數據。

  套索等方法減少特性和稀疏覆蓋在統計學習:套索和概括,由Hastie Tibshirani,Wainwright。(你可以免費下載PDF的書)套索等方法減少特性,在「統計學習稀疏」中很好地包含了:《套索和概括》by Hastie, Tibshirani, and Wainwright(你可以免費下載PDF的書)

  Q14你用什麼方法確定一篇文章(比如報紙上的)中公布的統計數字是錯誤的或者是為了支持作者觀點,而不是關於某主題正確全面的事實信息?

  一個簡單的規則,由Zack Lipton建議的:如果一些統計數據發表在報紙上,那麼它們是錯的。這裡有一個更嚴重的答案,來自 Anmol Rajpurohit:每一個媒體組織都有目標受眾。這個選擇很大地影響著決策,如這篇文章的發布、如何縮寫一篇文章,一篇文章強調的哪一部 分,如何敘述一個給定的事件等。

  確定發表任何文章統計的有效性,第一個步驟是檢查出版機構和它的目標受眾。即使是相同的新聞涉及的統計數據,你會注意到它的出版非常不同,在福克斯 新聞、《華爾街日報》、ACM/IEEE期刊都不一樣。因此,數據科學家很聰明的知道在哪裡獲取消息(以及從來源來判斷事件的可信度!)。

  

  圖14a:福克斯新聞上的一個誤導性條形圖的例子

  

  圖14b:如何客觀地呈現相同的數據 來自5 Ways to Avoid Being Fooled By Statistics

  作者經常試圖隱藏他們研究中的不足,通過精明的講故事和省略重要細節,跳到提出誘人的錯誤見解。因此,用拇指法則確定文章包含誤導統計推斷,就是檢 查這篇文章是否包含了統計方法,和統計方法相關的選擇上的細節限制。找一些關鍵詞如「樣本」「誤差」等等。雖然關於什麼樣的樣本大小或誤差是合適的沒有完 美的答案,但這些屬性一定要在閱讀結果的時候牢記。

  首先,一篇可靠的文章必須沒有任何未經證實的主張。所有的觀點必須有過去的研究的支持。否則,必須明確將其區分為「意見」,而不是一個觀點。其次, 僅僅因為一篇文章是著名的研究論文,並不意味著它是使用適當的研究方向的論文。這可以通過閱讀這些稱為研究論文「全部」,和獨立判斷他們的相關文章來驗 證。最後,雖然最終結果可能看起來是最有趣的部分,但是通常是致命地跳過了細節研究方法(和發現錯誤、偏差等)。

  理想情況下,我希望所有這類文章都發表他們的基礎研究數據方法。這樣,文章可以實現真正的可信,每個人都可以自由分析數據和應用研究方法,自己得出結果。

  Q15解釋Edward Tufte「圖表垃圾」的概念。

  回答者:Gregory Piatetsky

  圖標垃圾指的是所有的圖表和圖形視覺元素沒有充分理解表示在圖上的信息,或者沒有引起觀看者對這個信息的注意。

  圖標垃圾這個術語是由Edward Tufte在他1983年的書《定量信息的視覺顯示》里提出的。

  

  圖15所示。Tufte寫道:「一種無意的Necker錯覺,兩個平面翻轉到前面。一些金字塔隱藏其他;一個變數(愚蠢的金字塔的堆疊深度)沒有標籤或規模。」

  

  圖標垃圾的更現代的例子,很難理解excel使用者畫出的柱狀圖,因為「工人」和「起重機」掩蓋了他們。

  這種裝飾的問題是,他們迫使讀者更加困難而非必要地去發現數據的含義。

  Q16你會如何篩查異常值?如果發現它會怎樣處理?

  回答者:Bhavya Geethika.

  篩選異常值的方法有z-scores, modified z-score, box plots, Grubb』s test,Tietjen-Moore測試指數平滑法,Kimber測試指數分佈和移動窗口濾波演演算法。然而比較詳細的兩個方法是:Inter Quartile RangeAn outlier is a point of data that lies over 1.5 IQRs below the first quartile (Q1) or above third quartile (Q3) in a given data set.

  High = (Q3) + 1.5 IQR

  Low = (Q1) – 1.5 IQR

  Tukey Method

  It uses interquartile range to filter very large or very small numbers. It is practically the same method as above except that it uses the concept of 「fences」. The two values of fences are:

  Low outliers = Q1 – 1.5(Q3 – Q1) = Q1 – 1.5(IQR)

  High outliers = Q3 + 1.5(Q3 – Q1) = Q3 + 1.5(IQR)

  在這個區域外的任何值都是異常值

  當你發現異常值時,你不應該不對它進行一個定性評估就刪除它,因為這樣你改變了數據,使其不再純粹。重要的是要在理解分析的背景下或者說重要的是「為什麼的問題——為什麼異常值不同於其他數據點?」

  這個原因是至關重要的。如果歸因於異常值錯誤,你可能把它排除,但如果他們意味著一種新趨勢、模式或顯示一個有價值的深度數據,你應該保留它。

  Q17如何使用極值理論、蒙特卡洛模擬或其他數學統計(或別的什麼)正確估計非常罕見事件的可能性?

  回答者:Matthew Mayo.

  極值理論(EVT)側重於罕見的事件和極端,而不是經典的統計方法,集中的平均行為。EVT的州有3種分佈模型的極端數據點所需要的一組隨機觀察一些地理分佈:Gumble,f,和威布爾分佈,也稱為極值分佈(EVD)1、2和3分別。

  EVT的狀態,如果你從一個給定的生成N數據集分佈,然後創建一個新的數據集只包含這些N的最大值的數據集,這種新的數據集只會準確地描述了EVD分佈之一:耿貝爾,f,或者威布爾。廣義極值分佈(GEV),然後,一個模型結合3 EVT模型以及EVD模型。

  知道模型用於建模數據,我們可以使用模型來適應數據,然後評估。一旦發現最好的擬合模型,分析其執行,包括計算的可能性。

  Q18推薦引擎是什麼?它如何工作?

  回答者:Gregory Piatetsky

  現在我們很熟悉Netflix——「你可能感興趣的電影」或亞馬遜——購買了X產品的客戶還購買了Y的推薦。

  

  你可能感興趣的電影

  這樣的系統被稱為推薦引擎或廣泛推薦系統。

  他們通常以下兩種方式之一產生推薦:使用協作或基於內容的過濾。

  基於用戶的協同過濾方法構建一個模型過去的行為(以前購買物品,電影觀看和評級等)並使用當前和其他用戶所做的決定。然後使用這個模型來預測(或評級)用戶可能感興趣的項目。

  基於內容的過濾方法使用一個項目的特點推薦額外的具有類似屬性的物品。這些方法往往結合混合推薦系統。

  這是一個比較,當這兩種方法用於兩個流行音樂推薦系統——Last.fm 和 Pandora Radio。(以系統推薦條目為例)

  Last.fm創建一個「站」推薦的歌曲通過觀察樂隊和個人定期跟蹤用戶聽和比較這些聽其他用戶的行為。最後一次。fm會跟蹤不出現在用戶的圖書館,但通常是由其他有相似興趣的用戶。這種方法充分利用了用戶的行為,它是一個協同過濾技術。

  Pandora用一首歌的屬性或藝術家(400年的一個子集屬性提供的音樂基因工程)以設定具有類似屬性的「站」,播放音樂。用戶的反饋用來提煉的結果,排除用戶「不喜歡」特定的歌曲的某些屬性和強調用戶「喜歡」的歌的其他屬性。這是一個基於內容的方法。

  這裡有一些很好的介紹Introduction to Recommendation Engines by Dataconomy 和an overview of building a Collaborative Filtering Recommendation Engine by Toptal。關於推薦系統的最新研究,點擊ACM RecSys會議。

  Q19解釋什麼是假陽性和假陰性。為什麼區分它們非常重要?

  回答者:Gregory Piatetsky

  在二進位分類(或醫療測試)中,假陽性是當一個演演算法(或測試)滿足的條件,在現實中不滿足。假陰性是當一個演演算法(或測試)表明不滿足一個條件,但實際上它是存在的。

  在統計中,假設檢驗出假陽性,也被稱為第一類誤差和假陰性- II型錯誤。

  區分和治療不同的假陽性和假陰性顯然是非常重要的,因為這些錯誤的成本不一樣。

  例如,如果一個測試測出嚴重疾病是假陽性(測試說有疾病,但人是健康的),然後通過一個額外的測試將會確定正確的診斷。然而,如果測試結果是假陰性(測試說健康,但是人有疾病),然後患者可能會因此死去。

  Q20你使用什麼工具進行可視化?你對Tableau/R/SAS(用來作圖)有何看法?如何有效地在一幅圖表(或一個視頻)中表示五個維度?

  回答者:Gregory Piatetsky

  有很多優秀的數據可視化工具。R,Python,Tableau和Excel數據科學家是最常用的。

  這裡是有用的KDnuggets資源:

  可視化和數據挖掘軟體

  Python可視化工具的概述

  21個基本數據可視化工具

  前30名的社交網路分析和可視化工具

  標籤:數據可視化

  有很多方法可以比二維圖更好。第三維度可以顯示一個三維散點圖,可以旋轉。您可以操控顏色、材質、形狀、大小。動畫可以有效地用於顯示時間維度(隨時間變化)。

  這是一個很好的例子。

  

  圖20:五維虹膜數據的散點圖,尺寸:花萼長度;顏色:萼片寬;形狀:類;x-column:花瓣長度;y-column:花瓣寬度。

  從5個以上的維度,一種方法是平行坐標,由Alfred Inselberg首先提出。

  

  圖20 b:平行坐標里的虹膜數據
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-6-17 22:52

快速回復 返回頂部 返回列表