倍可親

回復: 1
列印 上一主題 下一主題

乾貨 :5種項目助你找到數據科學工作

[複製鏈接]

1萬

主題

2萬

帖子

3萬

積分

貝殼精神領袖

Rank: 6Rank: 6

積分
35927
跳轉到指定樓層
樓主
華盛頓人 發表於 2018-10-6 12:30 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  2018-10-06 08:15網際網路/技術/數據分析

  或許您已經在網上看了許多的MOOC,閱讀了很多工具書,但是您有可能仍然擔心找不到工作或根本沒有找到工作。在數據科學領域找到合適的工作的確有一定難度。最好的向HR展現您能力的方式就是準備一個文件夾。在文件夾中放入以下五種您做過的數據科學項目。

  1

  數據清洗

  通常來講,數據科學家在一個新的項目中預計會花80%的時間來清洗數據。這對於團隊來說是一個長而痛苦的過程。如果您能展示您在清洗數據上具有豐富的經驗,您就會變得很有價值。您可以找一些雜亂無章的數據集練習清理數據來增加您的經驗。

  

  如果您用的是Python,Pandas是一個很好用的包;如果您用的是R,dplyr包將會是一個不錯的選擇。確保您展示出以下的技能:

  標註重點數據

  連接多個數據集

  檢測缺失數據

  檢測異常值

  填充缺失數據

  確認數據質量

  2

  探索性數據分析

  另一項有關數據科學的重要內容是探索性數據分析(EDA)。這是提出問題的過程,需要您用可視化技術來研究這個數據集。EDA使得分析師能夠從數據中得出一些能驅動商業決策的結論。或許您能從客戶的數據、銷售的趨勢、季節的影像中得到有趣的結論。甚至有時候您能有一些和您最初設想完全不同的發現。

  用於探索性分析的一些有用的Python包是Pandas和Matplotlib。對於R用戶,ggplot2包將很有用。EDA項目應該顯示以下技能:

  

  用於探索性分析的一些有用的Python包是Pandas和Matplotlib。對於R用戶,ggplot2包將很有用。EDA項目應該顯示以下技能:

  能夠為調查制定相關問題

  識別趨勢

  識別變數之間的相關關係

  使用可視化技術(散點圖,直方圖,箱線圖等)有效地傳達結果

  3

  互動式數據可視化

  互動式數據可視化包括儀錶板等工具。這些工具對數據科學團隊以及更多面向業務的最終用戶都很有用。儀錶板允許數據科學團隊進行協作,並一起繪製見解。更重要的是,它們為面向業務的客戶提供了一種互動式工具。這些人專註於戰略目標而非技術細節。通常,數據科學項目的可交付成果將以儀錶板的形式出現。

  

  對於Python用戶,Bokeh和Plotly庫非常適合創建儀錶板。對於R用戶,請務必查看RStudio的Shiny軟體包。您的儀錶板項目應突出顯示以下重要技能:

  包括與客戶需求相關的指標

  創建有用的功能

  邏輯布局(「F模式」便於掃描)

  創建最佳刷新率

  生成報告或其他自動操作

  4

  機器學習

  機器學習項目是數據科學組合的另一個重要部分。在您開始構建一些深度學習項目之前,請退後一步。我們說的並不是建立複雜的機器學習模型,而是堅持基礎。線性回歸和邏輯回歸是很好的開始。這些模型更易於解釋和與上層管理層溝通。我還建議關注一個對業務有影響的項目,例如預測客戶流失,欺詐檢測或貸款違約。這比預測花型更貼近於工作實際。

  

  如果您是Python用戶,請使用Scikit-learn庫。對於R用戶,請使用Caret包。您的機器學習項目應該傳達以下技能:

  您選擇使用特定機器學習模型的原因

  將數據拆分為訓練/測試集(k倍交叉驗證)以避免過擬合

  選擇正確的評估指標(AUC,adj-R ^ 2,混淆矩陣等)

  特徵值的選擇

  超參數調整


 
時代小人物. 但也有自己的思想,情感. 和道德.

1萬

主題

2萬

帖子

3萬

積分

貝殼精神領袖

Rank: 6Rank: 6

積分
35927
沙發
 樓主| 華盛頓人 發表於 2018-10-6 12:30 | 只看該作者
 5

  溝通能力

  溝通是數據科學的一個重要方面。能否有效地傳達結果是優秀數據科學家與優秀科學家之間的區別。無論您的模型多麼花哨,如果您無法向隊友或客戶解釋,您將無法獲得他們的支持。幻燈片和筆記本電腦都是很好的溝通工具。嘗試將您的一個機器學習項目放入幻燈片格式中。您還可以將Jupyter Notebook或RMarkdown文件用於需要溝通的項目。

  

  確保了解您的目標受眾是誰。向高管們展示您的項目和向機器學習專家展示是非常不同的。一定要掌握這些技能:

  了解您的目標受眾

  使用相關的可視化技術

  請勿過多地提供幻燈片

  確保您的演示文稿流暢

  將結果與業務影響相結合(降低成本,增加收入)

  確保在Jupyter筆記本或RMarkdown文件中記錄您的項目。然後,您可以使用Github Pages將這些文件免費轉換為靜態網站。這是向潛在僱主展示您的項目的好方法。

  原文URL:https://www.kdnuggets.com/2018/0 ... projects-hired.html

  原文作者:John Sullivan

  原文題名:5 Data Science Projects That Will Get You Hired in 2018

  翻譯、校對、排版:李昊璟、朝樂門

  END

時代小人物. 但也有自己的思想,情感. 和道德.
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-11-23 17:49

快速回復 返回頂部 返回列表