計算速度與系統(tǒng)穩(wěn)定性的雙重挑戰(zhàn),正推動 AI 基礎(chǔ)設(shè)施向新一代集合通信技術(shù)邁進(jìn)。
在人工智能迅猛發(fā)展的今天,超大規(guī)模智算集群已成為推動技術(shù)突破的核心基礎(chǔ)設(shè)施。
海外科技巨頭紛紛布局,OpenAI 與甲骨文和軟銀正在推進(jìn)「星際之門」項目,計劃配備數(shù)百萬個 GPU,預(yù)計耗資超千億美元;微軟、谷歌、xAI 陸續(xù)完成十萬卡集群交付使用。
在國內(nèi),運營商也加速向 AI 基礎(chǔ)底座供應(yīng)商轉(zhuǎn)型,累計投資已超百億元,建成 4 個萬卡級智能計算中心,智算規(guī)模增長超 2 倍。
超大規(guī)模智算集群需要應(yīng)對諸多挑戰(zhàn):硬件配套投入大、運營維護(hù)費用高。更重要的是,單純堆砌硬件并不能解決所有問題,如何設(shè)計軟件系統(tǒng),將成千上萬個計算單元高度組織起來才是核心挑戰(zhàn)。在萬卡甚至百萬卡規(guī)模的集群中,設(shè)備故障幾乎成為常態(tài)而非例外,任何一個組件的失效都可能導(dǎo)致整個訓(xùn)練任務(wù)中斷,算力利用率系統(tǒng)穩(wěn)定性成為比純粹算力更為關(guān)鍵的指標(biāo)。
AI 基礎(chǔ)設(shè)施由計算 + 通信構(gòu)成,集合通信庫作為智算集群的 “神經(jīng)系統(tǒng)”,其重要性日益凸顯。集合通信庫是 GPU 計算芯片與高性能網(wǎng)絡(luò)的交匯所在,是 GPU 軟件棧基座組件。如英偉達(dá)的集合通信庫(NVIDIA Collective Communication Library,NCCL),可提供高性能、拓?fù)涓兄图线\算,包括 P2P(Point-to-Point) Send/Recv、AllReduce、AllGather 和 ReduceScatter 等。這些通信原語針對 NVIDIA GPU 和各種互連產(chǎn)品進(jìn)行了優(yōu)化,包括 PCIe、NVLink、RoCE 以太網(wǎng)和 InfiniBand。
在這種背景下,創(chuàng)智、基流、智譜、聯(lián)通、北航、清華、東南聯(lián)合打造了高效率、高可靠、高可視的 GPU 集合通信庫 VCCL(Venus Collective Communication Library),VCCL 已部署于多個生產(chǎn)環(huán)境集群中。
