時代商業(yè)網(wǎng) > 財經(jīng) >

650億參數(shù)大模型預(yù)訓(xùn)練方案開源可商用！LLaMA訓(xùn)練加速38%，來自明

來源：IT之家時間：2023-07-18 13:53 編輯：安遠閱讀量：17557

650 億參數(shù)大模型的預(yù)訓(xùn)練方案，發(fā)布即開源。訓(xùn)練速度較傳統(tǒng)方案提升 38%。

這就是由 Colossal-AI 最新發(fā)布的類 LLaMA 基礎(chǔ)大模型預(yù)訓(xùn)練方案。

要知道，在“百模大戰(zhàn)”背景下，誰擁有自家大模型，往往被視為核心競爭力。在這個節(jié)點下，愿意開源大模型的公司少之又少。但自己從頭訓(xùn)練一個大模型，對技術(shù)、資金都有很高要求。

由此，Colossal-AI 最新的開源動作，可以說是應(yīng)時勢所需了。并且它還不限制商業(yè)使用，開箱即用僅需 4 步。

具體項目有哪些內(nèi)容？一起往下看~

32 張 A100 / A800 即可使用

實際上，自從 Meta 開源 LLaMA 后，掀起了一波微調(diào)項目熱潮，如 Alpaca、Vicuna、ColossalChat 等都是在其基礎(chǔ)上打造的。

但是 LLaMA 只開源了模型權(quán)重且限制商業(yè)使用，微調(diào)能夠提升和注入的知識與能力也相對有限。

對于真正想要投身大模型浪潮的企業(yè)來說，訓(xùn)練自己的核心大模型非常重要。

開源社區(qū)也此前已獻了一系列工作:

RedPajama:開源可商用類 LLaMA 數(shù)據(jù)集
OpenLLaMA:開源可商用類 LLaMA 7B / 13B 模型，使用 EasyLM 基于 JAX 和 TPU 訓(xùn)練
Falcon:開源可商用類 LLaMA 7B / 40B 模型

但這些都還不夠，因為對于最主流的 PyTorch+GPU 生態(tài)，仍缺乏高效、可靠、易用的類 LLaMA 基礎(chǔ)大模型預(yù)訓(xùn)練方案。

所以 Colossal-AI 交出了最新的開源答卷。僅需 32 張 A100 / A800，即可搞定 650 億參數(shù)類 LLaMA 大模型預(yù)訓(xùn)練，訓(xùn)練速度提升 38%。

而像原生 PyTorch、FSDP 等，則因顯存溢出無法運行該任務(wù)。

Hugging Face accelerate、DeepSpeed、Megatron-LM 也未對 LLaMA 預(yù)訓(xùn)練進行官方支持。

開箱即用、4 步搞定

而這一項目真正上手起來也很簡易。共有四步:

1、安裝 Colossal-AI
2、安裝其他依賴項
3、數(shù)據(jù)集
4、運行命令

具體代碼如下:

第一步、安裝 Colossal-AI。

第二步、安裝其他依賴項。

cdexamples/language/llama#installotherdependenciespipinstall-rrequirements.txt#useflashattentionpipinstallxformers

第三步、數(shù)據(jù)集。

默認數(shù)據(jù)集 togethercomputer / RedPajama-Data-1T-Sample 將在首次運行時自動下載，也可通過-d 或 —dataset 指定自定義數(shù)據(jù)集。

第四步、運行命令。

已提供 7B 和 65B 的測速腳本，僅需根據(jù)實際硬件環(huán)境設(shè)置所用多節(jié)點的 host name 即可運行性能測試。

cdbenchmark_65B/gemini_autobashbatch12_seq2048_flash_attn.sh

對于實際的預(yù)訓(xùn)練任務(wù)，使用與速度測試一致，啟動相應(yīng)命令即可，如使用 4 節(jié)點 * 8 卡訓(xùn)練 65B 的模型。

colossalairun--nproc_per_node8--hostfileYOUR_HOST_FILE--master_addrYOUR_MASTER_ADDRpretrain.py-c'65b'--plugin"gemini"-l2048-g-b8-a

如果使用 Colossal-AI gemini_auto 并行策略，可便捷實現(xiàn)多機多卡并行訓(xùn)練，降低顯存消耗的同時保持高速訓(xùn)練。

還可根據(jù)硬件環(huán)境或?qū)嶋H需求，選擇流水并行 + 張量并行 + ZeRO1 等復(fù)雜并行策略組合。

其中，通過 Colossal-AI 的 Booster Plugins，用戶可以便捷自定義并行訓(xùn)練，如選擇 Low Level ZeRO、Gemini、DDP 等并行策略。

Gradient checkpointing 通過在反向傳播時重新計算模型的 activation 來減少內(nèi)存使用。

通過引入 Flash attention 機制加速計算并節(jié)省顯存。用戶可以通過命令行參數(shù)便捷控制數(shù)十個類似的自定義參數(shù)，在保持高性能的同時為自定義開發(fā)保持了靈活性。

Colossal-AI 最新的 ShardFormer 極大降低了使用多維并行訓(xùn)練 LLM 的上手成本。

現(xiàn)已支持包括 LLaMA 的多種等主流模型，且原生支持 Huggingface / transformers 模型庫。

無需改造模型，即可支持多維并行的各種配置組合，能夠在各種硬件配置上都發(fā)揮卓越的性能。

Colossal-AI:大模型系統(tǒng)基礎(chǔ)設(shè)施

帶來如上新工作的 Colossal-AI，如今已是大模型趨勢下的明星開發(fā)工具和社區(qū)了。

Colossal-AI 上述解決方案已在某世界 500 強落地應(yīng)用，在千卡集群性能優(yōu)異，僅需數(shù)周即可完成千億參數(shù)私有大模型預(yù)訓(xùn)練。

上海 AI Lab 與商湯等新近發(fā)布的 InternLM 也基于 Colossal-AI 在千卡實現(xiàn)高效預(yù)訓(xùn)練。

自開源以來，Colossal-AI 多次在 GitHub 熱榜位列世界第一，獲得 GitHub Star 超 3 萬顆，并成功入選 SC、AAAI、PPoPP、CVPR、ISC 等國際 AI 與 HPC 頂級會議的官方教程，已有上百家企業(yè)參與共建 Colossal-AI 生態(tài)。

它由加州伯克利大學(xué)杰出教授 James Demmel 和新加坡國立大學(xué)校長青年教授尤洋領(lǐng)導(dǎo)開發(fā)。

Colossal-AI 基于 PyTorch，可通過高效多維并行、異構(gòu)內(nèi)存等，主打為 AI 大模型訓(xùn)練 / 微調(diào) / 推理的開發(fā)與應(yīng)用成本，降低 GPU 需求等。

其背后公司潞晨科技，近期獲得數(shù)億元 A 輪融資，已在成立 18 個月內(nèi)已迅速連續(xù)完成三輪融資。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接，用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場無關(guān)。僅供讀者參考，并請自行核實相關(guān)內(nèi)容。

天天日天天干天天搞_亚洲性色AV无码久久精品色欲_亚洲精品免费在线观看_午夜视频在线免费观看

650億參數(shù)大模型預(yù)訓(xùn)練方案開源可商用！LLaMA訓(xùn)練加速38%，來自明

圖文 PICTURE

頭條

排行

熱圖