Graphcore二代IPU發布,7nm製程片上存儲高達900MB

4562 人參與      分類 : 科技  

2020年7月15日,Graphcore(中文名稱:擬未)在布里斯托和北京同步推出了兩款硬體產品。

第二代 IPU(智能處理單元)——Colossus™ MK2 GC200 和基於前者、可用於大規模集群系統的 IPU-Machine——M2000。同時,他們還宣布同金山雲達成合作,並已推出面向開發者的 IPU 雲服務。

專門為人工智慧計算設計

從名字就可以看出,Graphcore 的 IPU 產品是專門為人工智慧計算所設計,在這個賽道,IPU 被其締造者們認為具有天然的優勢。

據悉,本次發布的 GC200 仍然延續了第一代的「同構眾核」架構,所不同的是,製造工藝從 16nm,提升為最新的 7nm。

得益於此,加之技術迭代,GC200 的處理器片上存儲從 300MB 提升到了 900MB,晶體管數量更是達到了驚人的 594 億(裸片823平方毫米),較 NVIDIA 今年5月發布最新旗艦 A100 的 540 億還要多。

它的處理器核心從上一代的 1217 提升到了 1472,能夠執行 8832 個單獨的並行線程,系統性能提升了 8 倍以上。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | GC200

在數據處理方面,GC200 也延續了之前的高帶寬高容量表現,這對於應對一些複雜的 AI 模型及演算法很有幫助,官方聲明它足以支持具有數千億個參數的最大模型。

通信方面,Graphcore 推出了自創的 AI 專屬的 IPU-FABRIC 橫向擴展結構。

官方表示,該結構的延遲為 2.8Tbps,最多支持 64000 個 IPU 之間的橫向擴展。

M2000 是 Graphcore 推出的基於 GC200 的刀片型伺服器,每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系統產品部署的最小單元,基於它可以很方便地創建各種規模的集群。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | M2000

性能PK

Graphcore 對外一直宣傳 IPU 可以同時進行很好的「訓練」和「推理」,本次其官方雖然因對標的 A100 未公布結果而無法對比,但通過與自家上一代的對比,仍能間接看出明顯的進步。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | BERT-Base:Inference(C2 & V100)

可以看到,在 NLP 中,相同框架的情況下進行推理運算,NVIDIA V100 表現僅為 C2 的一半。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | BERT-Base:Training(C2 & V100)

C2 的訓練時間較 V100 縮短 25%,耗費 36.3小時。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | 百度 DEEP VOICE3 訓練(C2 & GC200 & V100)

同樣的條件,一代 C2 較 V100 提高了6.8倍,GC200 較 V100 提高了14.8倍。

Graphcore二代IPU發布,7nm製程片上存儲高達900MB

圖 | C2 & GC200

綜上,第一代IPU 相較於 NVIDIA 上代旗艦 V100 的表現可圈可點,而二代 IPU GC200 的表現與 C2 相比有了 7 倍以上的提升。

可凡事也總有兩面,GC200 同構眾核的設計方案,雖然非常擅長處理大規模的並行計算,但也並非沒有弱點,如在做稠密矩陣這類並行特徵較弱運算時表現就要稍遜。

這個方案就像一把鎚子,需要找到合適自己的釘子,才能發揮其最大優勢。

需要說明的是,沒有一種架構能適應所有 AI 計算場景,一切都是權衡的結果。想要充分調用算力,除了底層的硬體設計,在軟體層面的調校也非常重要。

在 DeepTech 問及是否考慮在 MLPerf 平台測試時,Graphcore 高級副總裁兼中國區總經理盧濤這樣回答。

「Graphcore 是 MLPerf 的成員之一,未來我們有計劃在 MLPerf 組織里發揮自己的影響力,但是目前我們的策略跟其他友商不太一樣,因為我們的 IPU 要解決的問題和 GPU 所解決的問題並不完全一樣,可事實上 MLPerf 的 benchmark 是傾向於 GPU 架構的,很多適合於 IPU 的數據集和模型並沒有加入到測試集中」。

快速成長

截止目前,這家成立僅 4 年的英國年輕公司已經累計獲得了 4.5 億美元融資,其投資人中既有紅杉這樣的金融投資者,也有戴爾、三星、微軟這類戰略投資者。與此同時,其團隊規模也從幾十人,發展到全球 430 人,其中工程技術人員佔比 80% 以上。

作為資本的寵兒,Graphcore 顯然並不滿足於英國本地的發展,根據其官網顯示,除英國本土,Graphcore 已經在中國、美國、挪威等地設立了分公司,其中中國包含兩處,分別位於北京和台灣新竹。

盧濤表示,中國目前 AI 產業的體量可能是全球幾個最大的國家之一,但論落地速度中國絕對是世界最快的國家,沒有之一。未來我們將一面加強國內團隊、開發者社區的建設,一面同國內各大雲服務公司、AI產業公司加強溝通,展開合作。