如何使用 ghs 運行 llama b bf
Lambda 實驗室現在推出 GH200 半價優惠,讓更多人習慣 ARM 工具。這意味著您實際上可能有能力運行最大的開源模型!唯一需要注意的是,您有時必須從原始程式碼建立一些東西。以下是我如何讓 llama 405b 在 GH200s 上高精度運行。
建立實例
Llama 405b 約為 750GB,因此您需要大約 10 個 96GB GPU 來運行它。 (GH200 具有相當不錯的CPU-GPU 記憶體交換速度——這就是GH200 的全部意義——因此您可以使用少至3 個。每個令牌的時間會很糟糕,但總吞吐量是可以接受的,如果您正在執行批次處理。 確保為它們提供相同的共用網路檔案系統。
將 IP 位址儲存到 ~/ips.txt。
批量 ssh 連接助手
我更喜歡直接 bash 和 ssh,而不是 kubernetes 或 slurm 等任何花哨的東西。借助一些助手即可輕鬆管理。
設定 NFS 緩存
我們將把 python 環境和模型權重放在 NFS 中。如果我們快取它,載入速度會快得多。
創建conda環境
我們可以在 NFS 中使用 conda 環境,並只用頭節點來控制它,而不是在每台機器上小心地執行完全相同的命令。
安裝阿芙羅狄蒂依賴項
Aphrodite 是 vllm 的一個分支,啟動速度更快,並且有一些額外的功能。
它將運行相容 openai 的推理 API 和模型本身。
你需要手電筒、Triton 和閃光注意。
您可以從 pytorch.org 取得 aarch64 torch 建置(您不想自己建置它)。
另外兩個你可以自己建造或使用我做的輪子。
如果您從原始程式碼構建,那麼您可以透過在三台不同的機器上並行運行 triton、flash-attention 和 aphrodite 的 python setup.py bdist_wheel 來節省一些時間。或者您可以在同一台機器上逐一執行它們。
來自車輪的 Triton 和閃光注意
海衛一從源頭
來自源頭的閃光注意力
安裝阿芙羅狄蒂
你可以使用我的輪子或自己建造。
輪子上的阿佛洛狄忒
阿佛洛狄忒的來源
檢查所有安裝是否成功
下載權重
前往 https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct 並確保您擁有正確的權限。批准通常需要大約一個小時。從 https://huggingface.co/settings/tokens
取得令牌
跑駱駝 405b
我們將透過啟動 ray 讓伺服器相互了解。
我們可以在一個終端選項卡中啟動阿芙羅狄蒂:
並在第二個終端機中從本機電腦執行查詢:
對於文字來說速度不錯,但是對於程式碼來說有點慢。如果您連接 2 台 8xH100 伺服器,那麼每秒會接近 16 個令牌,但成本是原來的三倍。
進一步閱讀
- 理論上,您可以使用 lambda labs API https://cloud.lambdalabs.com/api/v1/docs 編寫實例來建立和銷毀腳本
- 阿芙羅狄蒂文檔 https://aphrodite.pygmalion.chat/
- vllm 文件(api 大部分相同)https://docs.vllm.ai/en/latest/
以上是如何使用 ghs 運行 llama b bf的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Linux終端中查看Python版本時遇到權限問題的解決方法當你在Linux終端中嘗試查看Python的版本時,輸入python...

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

在使用Python的pandas庫時,如何在兩個結構不同的DataFrame之間進行整列複製是一個常見的問題。假設我們有兩個Dat...

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

Uvicorn是如何持續監聽HTTP請求的? Uvicorn是一個基於ASGI的輕量級Web服務器,其核心功能之一便是監聽HTTP請求並進�...

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com(https://cn.investing.com/news/latest-news)的新聞數據時,常常�...
