九游體育娛樂網(wǎng)并可進行修改以確保職業(yè)安全-九游(中國)jiuyou·官方網(wǎng)站-登錄入口

發(fā)布日期：2025-03-13 21:24 點擊次數(shù)：124

本文先容了英特爾 ? 至強 ? 處理器在 AI 推理領(lǐng)域的上風(fēng)，怎么使用一鍵部署的鏡像進行純 CPU 環(huán)境下基于 AMX 加速后的 DeepSeek-R1 7B 蒸餾模子推理，以及純 CPU 環(huán)境下部署 DeepSeek-R1 671B 滿血版模子實踐。

大模子因其參數(shù)領(lǐng)域巨大、結(jié)構(gòu)復(fù)雜，經(jīng)常需要強勁的狡計資源來扶植其推理經(jīng)過，這使得算力成為大模子應(yīng)用的中樞要素。跟著 DeepSeek-R1 模子的問世，九行八業(yè)紛繁張開了對于怎么接入大模子智商的平凡調(diào)研與探索，市集對大模子推理算力的需求呈現(xiàn)出爆發(fā)式增長的趨勢。

舉例在醫(yī)療、金融、零賣等領(lǐng)域，企業(yè)蹙迫但愿通過接入 DeepSeek 大模子來普及決策服從和業(yè)務(wù)智商，從而激動行業(yè)的翻新發(fā)展。在這一配景下，算力的供給和優(yōu)化成為激動大模子落地應(yīng)用的轉(zhuǎn)折成分。

頻年來，CPU 制程和架構(gòu)的普及以及英特爾 ? 高檔矩陣擴張 AMX（Advanced Matrix Extensions）加速器的面世帶來了算力的快速普及。英特爾對大模子推理等多個 AI 領(lǐng)域握續(xù)深切連絡(luò)，提供全目的的 AI 軟件扶植，兼容主流 AI 軟件且提供多種軟件神志普及 CPU 的 AI 性能。現(xiàn)在，已有充分的數(shù)據(jù)露出 CPU 皆備不錯用于大模子推理場景。

CPU 適用于以下大模子推理場景：

場景 1: 大模子推理需要的內(nèi)存跨越了單塊 GPU 的顯存容量，需要多塊或更高配 GPU 卡，采選 CPU 決議，不錯訓(xùn)斥本錢；

場景 2: 應(yīng)用肯求量小，GPU 哄騙率低，采選 CPU 推理，資源永訣的粒度更小，可有用訓(xùn)斥起建本錢；

場景 3: GPU 資源緊缺，CPU 更容易獲取，且不錯勝任大模子推理。

天翼云 EMR 實例 DeepSeek-R1-Distill-Qwen-7B 蒸餾模子部署實踐

本節(jié)踐諾主要先容如安在天翼云 EMR 實例上，基于 Intel ?? xFasterTransformer 加速庫和 vllm 推理引擎完成模子部署，并展示有關(guān)性能狡計。

職業(yè)部署

為了陋劣用戶使用，天翼云融合英特爾制作了一鍵部署的云主機鏡像，內(nèi)置 DeepSeek-R1-Distill-Qwen-7B 模子、vLLM 推理框架、xFT 加速庫以及 open-webui 前端可視環(huán)境。您可在天翼云限制臺接納下列資源池和鏡像，洞開云主機進行體驗。

完成云主機洞開明，推理職業(yè)會在 5 分鐘內(nèi)自動啟動，您無需進行任何其他操作。

注：如需在云主機外造訪職業(yè)，您需要綁定彈性 IP，并在安全組內(nèi)放行 22/3000/8000 端口。

模子使用

open-webui 前端使用

鏡像已內(nèi)置 open-webui，并已完成和 vllm 的勾通設(shè)置，可平直通過以下地址進行造訪 :

http:// [ 彈性 IP ] :3000/

注：1. 初次掀開頁面時，您需要先完成料理員注冊，以進行后續(xù)的用戶料理。注冊數(shù)據(jù)均保存在云實例的 /root/volume/open-webui 目次下。

2. 若是初次掀開對話頁面時莫得模子可供接納 , 請您稍等幾分鐘讓模子完成加載即可。

vllm api 調(diào)用

鏡像內(nèi)置 vllm 職業(yè)可平直通過如下地址造訪：

# 根旅途 http:// [ 彈性 IP ] :8000/# 查詢現(xiàn)存模子 http:// [ 彈性 IP ] :8000/v1/models# 其他 api 接口參閱 vllm 文檔

注：vllm 職業(yè)設(shè)置有 API_KEY，您可在云實例的 /root/recreate_container.sh 文獻濫觴稽察到現(xiàn)時值，并可進行修改以確保職業(yè)安全。

性能狡計

借助于英特爾 AMX 的加速智商，本推理職業(yè)大概取得顯赫的性能普及，天翼云完成測試并給出參考狡計如下：

基本參數(shù)

vcpu 數(shù)：24（物理核 12）

內(nèi)存：64GB

硬盤：60G 通用型 SSD

模子：DeepSeek-R1-Distill-Qwen-7B（bf16）

batch size：1

輸入 token 個數(shù)：30-60

輸出 token 個數(shù)：256

性能數(shù)據(jù)

平均 token 生成速率：

首 token 時延：

在天翼云 c8e 系列 24vcpu 云主機上，啟用 AMX 加速智商后，DeepSeek 7B 蒸餾模子（BF16）推理速率大概獨特 9token/s，知足日常使用需求。

基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 實踐性能狡計

DeepSeek R1 671B 滿血版模子以其不凡的性能，為用戶帶來了極致的結(jié)尾體驗，不外其部署本錢也羈系小覷。若采選傳統(tǒng)的 GPU 部署神志，需要 8-16 張 GPU 才智提供彌漫的扶植，這無疑大幅增多了硬件購置、能耗以及保養(yǎng)等方面的本錢。

在這么的配景下，天翼云基于英特爾 ? 提供的至強 ? 6 處理器職業(yè)器進行了 DeepSeek R1 671B 滿血版 Q4_K_M 模子的部署嘗試，測試結(jié)尾如下 :

1-instance 1-socket：

平均微辭性能 9.7~10 token/s

2-instance 1-socket：

平均 7.32 token/s 和 7.38token/s，共 14.7token/s

從上頭測試數(shù)據(jù)不錯看到，采選單實例單 socket 部署下，DeepSeek R1 671B 滿血版模子可達到平均 9.7～10 token/s 的微辭量，而在雙實例部署時勢中，總體微辭量普及至 14.7 token/s。單顆 CPU 系統(tǒng)的微辭性能不錯達到普通用戶淺近使用的需要。

英特爾?至強?6 處理器簡介

英特爾 ? 至強 ? CPU 為 DeepSeek R1 671B 模子的部署提供了一個極具競爭力的決議。英特爾 ? 至強 ? CPU 具備扶植 T 級超大內(nèi)存的智商，這使得它在權(quán)重存儲與加載方面推崇高效。對于像 DeepSeek R1 671B 這么的超大模子，其所需的顯存容量在多卡 GPU 設(shè)置下才智知足，而英特爾 ? 至強 ? CPU 大概憑借其強勁的內(nèi)存扶植智商，為該模子提供考究的入手環(huán)境。

此外，DeepSeek R1 模子采選的 MOE（Mixture of Experts）結(jié)構(gòu)，通過參數(shù)稀薄化的神志，使得在單 token 推理時僅需激活極少各人參數(shù)。這種性格顯赫訓(xùn)斥了推理經(jīng)過中的算力條目，與 CPU 的狡計特色相契合，使得模子在 CPU 系統(tǒng)上的入手愈加高效。這意味著在英特爾 ? 至強 ? CPU 上部署 DeepSeek R1 671B 模子，不僅大概充分闡揚模子的性能上風(fēng)，還能有用訓(xùn)斥部署本錢，幸免了對多數(shù) GPU 的依賴。

如需復(fù)現(xiàn)以上性能測試結(jié)尾，請參看附錄 2

回首

通過本次實踐，不管是在天翼云 EMR 云實例上結(jié)合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸餾模子，依然基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 模子，均考據(jù)了 CPU 系統(tǒng)在 DeepSeek 大模子推理上的可行性和合乎業(yè)界浩蕩條目的性能推崇。CPU 系統(tǒng)不僅大概機動頂住不同領(lǐng)域的模子需求，不管是輕量化蒸餾模子依然全功能滿血模子，都能高效知足用戶場景需求，提供了一種低本錢、經(jīng)濟高效的搞定決議。

附錄 1 ? 英特爾 ? 至強 ? 可擴張?zhí)幚砥髋c AI 加速本事最新英特爾?至強?可擴張?zhí)幚砥骶悠酚⑻貭柕谖宕?至強?可擴張?zhí)幚砥鳎ù?Emerald Rapids）——為 AI 加速而生

第五代英特爾 ? 至強 ? 處理器以專為 AI 使命負載量身定制的設(shè)想理念，終明晰中樞架構(gòu)和內(nèi)存系統(tǒng)的雙重飛躍。其 64 中樞設(shè)想搭配高達 320MB 的三級緩存（每中樞由 1.875MB 普及至 5MB），相較上代緩存容量終了近三倍增長，為大領(lǐng)域并行 AI 推理提供充裕的土產(chǎn)貨數(shù)據(jù)存儲空間。與此同期，處理器扶植 DDR5-5600 高速內(nèi)存，單路最大 4TB 的容量保證了大數(shù)據(jù)處理時的帶寬和蔓延上風(fēng)。基于這些硬件普及，Emerald Rapids 舉座性能較上一代普及 21%，AI 推感性能平均普及 42%，在大說話模子推理場景中可終了最高 1.5 倍的性能加速，同期大幅訓(xùn)斥總領(lǐng)有本錢達 77%。

英特爾?至強?6 處理器（代號 GNR Granite Rapids）——引頸 CPU AI 算力變嫌

全新 GNR 處理器專為頂住東談主工智能、數(shù)據(jù)分析及科學(xué)狡計等狡計密集型任務(wù)而設(shè)想。該居品在內(nèi)核數(shù)目、內(nèi)存帶寬及專用 AI 加速器方面均終了轉(zhuǎn)折打破：

中樞與性能：每 CPU 配備多達 128 個性能中樞，單路中樞數(shù)較上一代翻倍，同期平均單核性能普及達 1.2 倍、每瓦性能普及 1.6 倍，進一步強化了 CPU 在大模子推理中的并立處賢達商；

AI 加速功能：內(nèi)置英特爾 ? 高檔矩陣擴張（AMX）新增對 FP16 數(shù)據(jù)類型的扶植，使得生成式 AI 和傳統(tǒng)深度學(xué)習(xí)推理任務(wù)均能取得顯赫加速；

內(nèi)存與 I/O 打破：扶植 DDR5-6400 內(nèi)存及英特爾首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 本事，有用將內(nèi)存帶寬普及至上一代的 2.3 倍；同期，高達 504MB 的三級緩存和低蔓延設(shè)想確保數(shù)據(jù)大概更快加載，為復(fù)雜模子素質(zhì)和推理裁減反映時辰。

英特爾 ? 至強 ? 6 處理器不僅通過更多的中樞和更高的單線程性能普及了 AI 大模子推賢達商，同期也大概行為機頭 CPU 為 GPU 和其他加速器提供高速數(shù)據(jù)供給，進一步裁減舉座模子素質(zhì)時辰。在知足攙和使命負載需求的同期，其 TCO 平均訓(xùn)斥 30%，大模子推理加速最高可達 2.4 倍。

不管是第五代至強依然全新的至強 6 處理器，英特爾均通過在中樞架構(gòu)、緩存系統(tǒng)、內(nèi)存本事和專用 AI 加速器方面的全面變嫌，提供了業(yè)界率先的 AI 狡計扶植。這兩款居品為數(shù)據(jù)中心和高性能狡計平臺在 AI 推理、素質(zhì)以及種種化使命負載下提供了強勁而高效的算力保險。

△圖 1 英特爾高檔矩陣擴張（AMX）英特爾全目的的 AI 軟件生態(tài)扶植

英特爾過甚配合股伴憑借多年 AI 積蓄，圍繞至強 ? 可擴張?zhí)幚砥鞔蛟炝送晟频能浖鷳B(tài)：平凡扶植主流開源框架，通過插件優(yōu)化及種種化開源用具鏈，使用戶在 x86 平臺上大概毛糙開發(fā)、部署通用 AI 應(yīng)用，無需手動調(diào)遣，同期確保從末端到云的全程安全保護。

其中，xFasterTransformer（xFT）是英特爾官方開源的 AI 推理框架，專為大說話模子在至強 ? 平臺上深度優(yōu)化。xFT 不僅扶植多種數(shù)據(jù)精度（FP16、BF16、INT8、INT4），還能哄騙多 CPU 節(jié)點終了分散式部署，顯赫普及推感性能并訓(xùn)斥本錢。其直爽的裝置和與主流 Serving 框架（如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle）的兼容性，匡助用戶快速加速大模子應(yīng)用。在 3.1 節(jié)中基于天翼云 EMR 云主機和 xFasterTransformer 加速引擎終明晰對與 DeepSeek R1 蒸餾模子的高效推理部署。

△圖 2 英特爾提供 AI 軟件用具全面兼容主流 AI 開發(fā)框架附錄 2 CPU 環(huán)境下部署 DeepSeek-R1 671B 模子實踐環(huán)境設(shè)置

硬件設(shè)置

CPU：Intel ? Xeon ? 6980P Processor, 128core 2.00 GHz

內(nèi)存 24*64GB DDR5-6400

存儲 1TB NVMe SSD

軟件環(huán)境

OS: Ubuntu 22.04.5 LTS

Kernel: 5.15.0-131-generic

llama.cpp: github bd6e55b

cmake: 3.22.0

gcc/g++: 11.4.0

Python: 3.12.8

git: 2.34.1

BIOS ?關(guān)閉 sub NUMA 有關(guān)設(shè)置。

注：版塊是指本測試中職業(yè)器上裝置的版塊，并?條目的最低版塊。

部署模范 1. 裝置 llama.cpp

參考 llama.cpp 官?的裝置證實，咱們的模范如下。

# 下載 llama.cpp 推理框架源碼 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 事先準備 intel oneapi 庫 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 庫對 llama.cpp 進行編譯 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc

2. 下載模子?件

社區(qū)提供了從 1bit 到 8bit 不同版塊的量化選項，具體區(qū)別不錯參考社區(qū)網(wǎng)頁。咱們接納了使用最受迎接的 Q4_K_M 版塊。若是追求最好結(jié)尾，提出使用 Q8_0 版塊。

# 下載 unsloth 制作的社區(qū)版量化模子 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 提出 nohup 實施 , 瞻望至少需要半天時辰 , 同期確保磁盤容量彌漫 400G.git lfs pull — include= " DeepSeek-R1-Q4_K_M/* "

3. 模子加載和運?

使用 llama-cli，指定模子文獻旅途并啟用交互時勢，DeepSeek R1 滿血版就不錯在 CPU 上成功入手了。

build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i

底下用幾個示例展現(xiàn) DeepSeek-R1 671B 滿血版強勁的的 reasoning 推賢達商 :

測試模子自我剖釋 :

考據(jù)推理能?的經(jīng)典"草莓"問題 :

"等燈等燈"的意旨真諦 :

4. 性能及優(yōu)化

那么 CPU 運?滿?版 R1 的性能奈何樣呢？咱們作念了有關(guān)性能測試。對于 Q4_K_M 模子，使?如下號召進行 :

export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "以寥寂的夜行者為題寫一篇 750 字的散文，描繪一個東談主在城市中夜晚漫無目的行走的熱誠與所見所感，以及夜的稀薄予以的特有感悟。"

這?使? numactl 來指定使?單路 CPU ( 0-127, 6980P 有 128 核 ) ，以及這?路 CPU 的內(nèi)存節(jié)點（numa0），幸免跨 numa 傳輸以獲取最好性能。

llama.cpp 是土產(chǎn)貨編譯的，編譯的時候使? Intel oneAPI 不錯有用普及它的性能。英特爾嘗試?了 oneAPI ?的 Intel C++ 編譯器和數(shù)學(xué)加速庫 MKL，結(jié)合 jemalloc 內(nèi)存料理優(yōu)化，推理速率不錯達到每秒 9.7~10 詞元 ( TPS, tokens per second ) 。

上?的實驗是在單路 CPU 上進?的，咱們?在兩路 CPU 上各?獨?啟動 1 個模子實例，總速率不錯達到 14.7TPS ( 7.32TPS+7.38TPS ) 。

再進?步，英特爾不雅察到基于現(xiàn)存的 llama.cpp 軟件?案，在 CPU 平臺莫得終了?效的各人并?和張量并?等優(yōu)化，CPU 核?利?率和帶寬資源莫得充分闡揚出來，6980P 的 128 核?運? 1 個模子還有不少性能儲備。瞻望不錯不息增多實例數(shù)來取得更好的總 TPS。

另外，經(jīng)常情況下，CPU 的 SNC ( Sub-NUMA Clustering ) 勸誘不錯取得更?的帶寬，然而受限于軟件并未優(yōu)化終了考究匹配，這次實驗關(guān)閉了 SNC 測試。

以下?式的系統(tǒng)設(shè)置也有助于普及性能：

BIOS ?關(guān)閉 AMP prefetcher

? cpupower 掀開 CPU 的 pstate 性能時勢

提? CPU 的 uncore 頻率

關(guān)閉超線程 ( Hyper-Threading )

注 : 為了加速檢會進程，咱們結(jié)尾了詞元輸出?度 ( -n 128 ) 。經(jīng)過考據(jù)，增多輸出?度 ( 舉例 -n 512 ) 對于生成性能狡計的影響不大。

* 本文系量子位獲授權(quán)刊載九游體育娛樂網(wǎng)，不雅點僅為原作家總共。

九游體育娛樂網(wǎng)并可進行修改以確保職業(yè)安全-九游(中國)jiuyou·官方網(wǎng)站-登錄入口

熱點資訊

相關(guān)資訊