250多位行業領導者打造AI晶元市場路線圖

大千世界 · 發表於 2018-10-5 02:37

　　機器之　　2018-09-30 14:48收藏8評論0人工智慧

　　

　　撰文 | Brett Simpson等

　　來源 | Arete Research

　　編譯 | 孫茜茜、微胖

　　長期晶元投資者應該關注什麼類型的公司？強大的市場需求究竟需要產品的哪種創新？ AI晶元銷售額將達到一個怎樣的量級？這份簡短的報告會告訴你一個參考答案。

　　9 月 18 和 19 日，在加州山景城舉辦了 AI Hardware Summit 會議，這是目前唯一專門致力於開發用於神經網路和計算機視覺硬體加速器生態系統的活動。

　　會上，來自 AI 晶元初創企業、半導體公司、系統供應商/ OEM、數據中心、企業、金融服務、投資者和基金經理等 250 多位先進技術領導者們，為新興的 AI 晶元市場構建了一幅全面的架構路線圖。

　　本文作者 Brett Simpson 等人是市場研究機構 Arete Research 的高級分析師。在參加完本次會議后，他們將一些新的觀察和所感寫下來，形成了這份簡短的小報告「AI Silicon: New Dawn for Compute」。從題目可以看出，作者非常看好 AI 晶元的前景。

　　以下是報告的中文譯文：

　　人工智慧硬體峰會的五大要點:

　　幾乎所有使 AI 計算加速的都是 7nm 晶元，由台積電製造。另外，我們還看到了一系列新的高速介面晶元 (Serdes 56 / 112gbs)。

　　英偉達依舊是訓練領域之王，我們將會看到其新款計算卡 Tesla T4（使用了全新的 12nm 製程工藝圖靈架構）的廣泛使用。我們認為，它將在 2019 年繼續佔據主導地位。長遠來看，我們對 AI 較少依賴於 CUDA 和 GPU 的狀況感到擔憂。

　　我們認為 Intel 的 7nm AI 晶元（由台積電代工）支持 112GBs Serdes 和高速 DRAM。明年，在 Cascade Lake 伺服器中，DL Boost INT8 會協助提高深度學習推理性能。

　　所有的雲計算服務商都在開發內部的晶元，加速計劃是不公開的。這種垂直推進是對晶元製造商的一個主要威脅。

　　在五年的時間中，我們看到：新的模擬計算機（神經形態）的進步，納米線對數字計算的部分挑戰，硅光子代替了 SerDes（112GBs 以上），以及更高速的存儲器對 AI 性能提升的助益。

　　未來十年，AI 晶元將不僅是半導體領域最有前途的增長領域之一，還可能擾亂傳統的計算機市場。

　　專門針對 AI 開發的軟體還有 99%沒寫出來。如今，只有不足1% 的雲伺服器為AI加速服務（今年的伺服器總數為 5 百萬台），企業伺服器則是幾乎零舉動。訓練和推理的工作量正以較低的基數倍增，但市場似乎一致認為，今天的加速硬體（GPUs，CPUs， FPGAs)已經遠遠滿足不了市場的需求——在我們看來，我們需要實現吞吐量的巨大飛躍（100 倍），以擴大 AI 的規模，並讓 AI 變得無處不在。

　　好消息是，即將迎來結構性的創新，但是其作用需要一段時間才能顯現出來。

　　2019 年以後，我們將看到：新的流程技術（7nm），新的計算機功能結構（晶元上的神經網路），新的晶元連接（56/112GBs SerDes），新的內存方法（HBM3，SRAM on-chip 等）和新的包裝技術，所有這些都能大規模提升性能。

　　晶元行業正在進行創新反思，因為晶元的發展不能過多依賴製造業的萎縮來取得進展。機會來了。我們會繼續看到，對長期投資 AI 晶元的投資者而言，投資台積電和主要的 DRAM 製造商仍是最佳選擇。

　　我們上周參加了人工智慧硬體峰會，了解了很多 AI 晶元替代品的現狀。

　　有一件事是清楚的：我們從未見過如此多的公司（無論大小）像今天這樣、進軍新的晶元市場，毫無疑問，未來幾年將會是一個令人著迷的時期，我們一定能見證這個市場的整合過程。

　　繼谷歌的 TPU 領先之後，每個雲計算服務商都在做內部的 AI 晶元。問題在於，要想影響市場的情緒，這一切需要的時間有多長。

　　畢竟，谷歌的 TPU 晶元已經到了第三代（2016 年中期推出第一代 TPU），但仍然承載不了 Tensorflow（或其他框架）所有工作量。我們認為，其他雲計算服務商將在 2020 年驗證並量產他們的第一款 AI 晶元。

　　造新的 AI 晶元，有兩種通用方法。

　　第一種方法是，在系統上進行創新，以更快的 I/O 和外部內存介面（英偉達、英特爾等）為重點來擴展性能。

　　第二種方法是，把所有的數據集中保留在晶元上（晶元上的神經網路）——包括大量的小核和晶元內存，以減少對外部 DRAM 的需求。第二種方法將在未來 6 個月內實現第一批 AI 晶元的商業化，但我們認為，7nm 工藝才是促使市場為其買單的優勢（也就是 2020 年的增長）。

　　圍繞人工智慧的軟體棧在快速發展，雲計算服務商也推出了開源適配器，以支持在其框架中運行的各種晶元（例如 Tensorflow XLA、Facebook Glow）。隨著新神經網路的成熟，每個人都會認同可編程性和靈活性的重要性。

　　這意味著，7nm 晶元潛在的目標是，16 位浮點運算的運算能力至少要達到 10TOPS。人們真正關注的是如何通過提高效率來提高性能，如通過支持稀疏數據結構、降低精度、使用 mini-batching、加快晶元互聯速度（112GB Serdes）、使用更快的內存介面（遠超 HBM2），以及新的多晶元先進封裝。

　　英特爾：AI 領域的玩家、

　　當人們普遍不再依賴通用 CPU 時，也不再十分信任英特爾計劃在未來幾年內為 AI 引入一些新的優化措施這件事。

　　英特爾去年 (2017 年) 的 AI 收入約為 10 億美元，Xeon CPUs 也將繼續在 AI 推理和 AI 訓練方面發揮重要作用。

　　例如，英特爾在 Cascade Lake 的伺服器架構中添加了大量新的指令，以提高其推理性能（聲稱在精度為 INT8 的情況下、性能提升了 11 倍）。我們預計，這些擴展將與 AMD EPYC2 規格區別開來。

　　我們還相信，英特爾的下一個 ASIC 晶元（將於 2019 年採樣）將由台積電代工（7nm），將具有一些關鍵的專有介面，這將顯著提高它的性能。雖然當下 GPU 以低速（PCIE-3）與 CPU 相連，但是我們預計，新的伺服器將 PCIE-4（16GB），仍會是數據輸入 GPU 的關鍵瓶頸。

　　相比之下，我們認為，英特爾將在其 Xeon CPU 和 7nm Nervana 晶元之間構建專有介面，速度可達 112GB。英特爾正計劃推出一種新的高帶寬內存介面（這對雲服務提供商來說，是一個關鍵的關注點），並積极參与新的多晶元包裝。AI 的加速會導致更多的 CPU 被停用，英特爾正尋求通過圍繞 Xeon 構建外圍解決方案來獲取價值。

　　時間會證明這是否有效，但為了在 2020 年對抗英偉達，這個目標十分明確。

　　英偉達：標準制定者

　　英偉達的 GPU 目前仍然是 AI 計算領域的王者，他們有實際的收益（支持所有的框架，所有的雲計算服務商，所有的 OEM），他們的新品將有顯著的性能提升——我們認為，其 T4 將被廣泛採用，其新的 DGX2 伺服器將在今年售罄。目前沒有什麼引人注目的替代品可供選擇，我們認為，英偉達將繼續佔據主導地位（至少到 2019 年），但有兩個主要問題讓我們懷疑，英偉達是否能長期維持其領導地位：

　　首先，我們認為，很明顯的一點是，隨著谷歌和 ONNX 等公司的努力，英偉達的軟體護城河 (CUDA) 將變得不那麼重要。

　　雲計算服務商正積極提供開源插件，用於替代晶元解決方案，以支持 Tensorflow、Pytorch、CNTK、coff2 等框架，從而降低進入新的 AI 處理器的軟體門檻。

　　其次，是英偉達訓練和推理晶元的經濟性——雖然它們可以為許多 AI 工作節省 CPU，但是銷售卡的超高利潤率與昂貴的內存捆綁在一起（V100 是每張卡 1 萬美元，P4 可能是每張卡 2000 美元），這隻會讓雲端玩家擁抱其他架構。

　　圖 1: 微軟關於計算選擇強調了我們的觀點，即需要快速發展 GPU。

　　

　　來源：微軟在人工智慧硬體峰會上的 PPT

　　儘管如此，英偉達有巨大的資源來超越競爭對手 (尤其是初創企業)，它致力於每年為 AI 推出一種新的架構，可能在 2019 年首次推出 7nm 解決方案。

　　V100 和 T4 在很大程度上都被視為英偉達在 AI 領域的第一顆轉換晶元（不再只是通用 GPU），因為它們是第一個支持張量核心和較低推理精度的晶元（INT8）。

　　隨著英偉達 7nm 晶元的推出，我們期待，其性能在 2019 年會有另一個大的飛躍——有很多大幅提升吞吐量和延遲以提升效率的方法，我們預期，其下一代晶元更像以 AI 為中心的 ASIC，而不是 GPU。

　　雲端的消費者告訴我們，他們使用 V100 GPU 來進行訓練的頻率很低（低至 15%），因為他們用 GPU 只是為了訓練單一的神經網路。他們希望英偉達能將 GPU 虛擬化——儘管對 AI 計算的需求永無止境的，但這可能會給英偉達的 GPU 增長帶來壓力。

　　此外，英偉達如今擁有晶元對晶元的快速介面（NVlink2），運行速度為 25Gbs（遠遠超過僅 8GB 的 PCIE-3 或 16GB 的 PCIE-4）。我們預計，到 2019 年底，英偉達將支持 56Gbs 甚至 112 GB 的伺服器，因為有些替代方案可以提升這些規格。

　　我們認為，英偉達的下一代架構將在 2019 年的 7nm 晶元上出現（超過 Volta / Turing），這將大大決定它能夠在多大程度上拉開市場差距。

　　

大千世界 · 發表於 2018-10-5 02:37

AI 晶元的替代品——即將到來

　　隨著谷歌 TPU 的推出，每個雲計算服務商內部都有了做 AI 晶元的項目，我們認為，這將在未來 18 個月內得到驗證。

　　有些人公開表達了自己的意圖。微軟甚至在峰會上設立了招聘平台，這就是它渴望建立團隊的表現。但有關這些項目的狀況，我們無從得知：雲計算服務商沒有公開他們造芯計劃的任何細節，所以我們不知道他們的項目進展。

　　我們認為，第一代轉換晶元將像谷歌兩年前對 TPU 的判斷一樣，專註於推理。Google Brain 的報告指出了一個具有諷刺意味的事實：當晶元行業達到摩爾定律的極限之際，AI 計算卻出現了指數級增長，因此，架構（和軟體協同設計）將成為關鍵的推動因素。

　　谷歌不僅使用 TPU 來處理越來越多的工作量，還用 GPU 測試大量即將上市的新系統。

　　這 50 多家創業公司的工作都是為了將他們的平台商業化，我們預計在未來 12 個月內會有 6 家公司推出首款轉換晶元，將於 2020 年推出第二款（7nm 晶元）。

　　即使一些人工智慧初創企業2019 年的銷售額就可能達到 1 億美元，但我們認為，到 2020 年才會有人超越這個數字。有許多令人印象深刻的初創公司，但其中許多還沒有流片，因此很難對其性能進行驗證。

　　雲計算服務商們希望了解新的 AI 晶元的系統性能，因此，他們幫助建立了一個新的基準測試標準，名為 MLPerf。

　　我們認為，這將是分析特定模型的訓練時間 (如果不要求準確性) 的關鍵標準，也有助於與目前市場領軍者英偉達的培訓平台進行比較 (英偉達尚未加入 MLPerf)。

　　很明顯的一點是，許多初創企業以前從未進入過主要的雲數據中心，也從未在前沿製造過晶元。

　　此外，只有少數參與者之前與雲有密切的關係、在以雲計算晶元為關鍵任務構建一個工程團隊方面有豐富的經驗。

　　表格 1：MLPerf 將通過一系列數據集和模型限制 AI 晶元的訓練時間

　　

　　來源：MLPerf.com

　　雲加速：巨大的市場機遇

　　以今天一台典型的雲伺服器配置為例（包括 2 個插座，10 核 Xeon E5 就是最受歡迎的銷售平台之一），有大約 660 毫米的裸片大小來處理主 CPU 計算 (即兩個 330 毫米的 CPU 晶元)，主要由英特爾提供。但是，針對 AI 加速的伺服器（比如英偉達 DGX-1）已經有多達 10 倍的硅晶元大小來處理計算加速，正如圖 2 所示。

　　圖 2：與大多數 Xeon 伺服器相比，AI 加速訓練伺服器的晶元面積增加了大約 10 倍

　　

　　來源：Arete Research. 基於 NVDA 的 DGX-1V 伺服器的模具區域。

　　這個裸晶元大小與 CPU 裸晶元大小的比率只會增加，因為隨著時間的推移，每 CPU 4 個加速卡會上升到 6 個和 8 個。

　　我們相信，谷歌正計劃明年將 TPU 晶元數量增加兩倍。在訓練應用中，英偉達的晶元需求量會繼續大幅增長，而且從 2020 年開始，一大批人工智慧創業公司將崛起。

　　但是，鑒於人工智慧伺服器目前在市場上的滲透率很低 (今年購買的雲伺服器中，只有不到 1% 的伺服器支持加速度)，長遠來看，台積電機遇很大。

　　如果我們假設這種滲透率上升到 100 萬加速 AI 伺服器（今年低於 5 萬），並且裸晶元大小通過縮小（即每台 AI 伺服器 6,560mm）保持不變，這將轉化為大約每年 20 萬晶圓，或 30 億美元的代工收入（假設每片晶圓 15,000 美元，收益率 55％）。這就是為什麼我們繼續認為台積電將作為 AI 晶元的長期關鍵受益者之一。

　　長遠來看，還有哪些新技術？

　　峰會期間還有許多其他新興技術在 3 - 5 年的視野中看起來很有趣。

　　顯然，人工智慧的邊緣計算正在智能手機中進行，我們堅信每部智能手機都將在未來 2 - 3 年內擁有專用的計算機視覺 AI 處理器（在相機周圍）。

　　谷歌的 Edge TPU 和英偉達的 DLA 是早期可授權的例子，我們看到 ARM 現在提供專用的 AI 許可證解決方案，而 Qualcomm，華為海思和寒武紀以及聯發科則提供一系列智能手機和物聯網解決方案。

　　一系列具有增強 AI 規格的嵌入式 SOC 即將推出，適用於相機，機器人，汽車等。英偉達的 Xavier 就是一個例子。我們將在即將發布的報告中研究自動駕駛汽車的汽車路線圖，其中，AI 加速將發揮核心作用。

　　從長遠來看，儘管存在摩爾定律的挑戰，我們仍可以看到正在開發的一些新技術，以擴展計算性能。

　　其中一個更令人印象深刻的演講來自 Rain Neuromorphics 和 Mythic，他們從五年的時間角度，談了談模擬計算商業化，比如使用類似大腦突觸那樣的鬆散幾何形狀，解決功率限制。

　　此外，Ayar Labs 闡述了為什麼他們在硅光子微型化方面的突破，將導致更快的晶元互連（超過 112GB Serdes）的解決方案。

　　隨著 Exascale 計算機預計將在 3 - 4 年內出現在我們面前，我們認為，人工智慧正在全面推動反思，以實現性能的指數增長。

　　必要的披露

　　整體行業風險：演算法變化可能需要比預期更長的時間，ETH 價格可能上漲到足以抵消近期的回報阻礙和難度變化，並且可能出現一種新的 GPU 可挖掘的加密貨幣，從而推動 GPU 需求。

　　不斷惡化的全球經濟環境可能會影響半導體行業，迅速造成嚴重的供過於求，晶圓廠利用不足，平均售價下降或庫存減少。在 09 年期間，半成品銷售下降 10％（外存儲）。所有部門的競爭都很激烈。

　　智能手機領域是一個充滿活力的市場，有數十家廠商生產著需要複雜軟硬體集成技能的產品。雖然所謂「旗艦」設備的市場空間受到區分「黑色平板」(即主要運行 Android OS 的標準觸摸屏設備) 困難的限制，但是，很難預測哪一家廠商與哪種特定型號相關。

250多位行業領導者打造AI晶元市場路線圖

瀏覽過的版塊