九游體育娛樂網(wǎng)并可進行修改以確保職業(yè)安全-九游(中國)jiuyou·官方網(wǎng)站-登錄入口

本文先容了英特爾 ? 至強 ? 處理器在 AI 推理領(lǐng)域的上風(fēng),怎么使用一鍵部署的鏡像進行純 CPU 環(huán)境下基于 AMX 加速后的 DeepSeek-R1 7B 蒸餾模子推理,以及純 CPU 環(huán)境下部署 DeepSeek-R1 671B 滿血版模子實踐。
大模子因其參數(shù)領(lǐng)域巨大、結(jié)構(gòu)復(fù)雜,經(jīng)常需要強勁的狡計資源來扶植其推理經(jīng)過,這使得算力成為大模子應(yīng)用的中樞要素。跟著 DeepSeek-R1 模子的問世,九行八業(yè)紛繁張開了對于怎么接入大模子智商的平凡調(diào)研與探索,市集對大模子推理算力的需求呈現(xiàn)出爆發(fā)式增長的趨勢。
舉例在醫(yī)療、金融、零賣等領(lǐng)域,企業(yè)蹙迫但愿通過接入 DeepSeek 大模子來普及決策服從和業(yè)務(wù)智商,從而激動行業(yè)的翻新發(fā)展。在這一配景下,算力的供給和優(yōu)化成為激動大模子落地應(yīng)用的轉(zhuǎn)折成分。
頻年來,CPU 制程和架構(gòu)的普及以及英特爾 ? 高檔矩陣擴張 AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速普及。英特爾對大模子推理等多個 AI 領(lǐng)域握續(xù)深切連絡(luò),提供全目的的 AI 軟件扶植,兼容主流 AI 軟件且提供多種軟件神志普及 CPU 的 AI 性能。現(xiàn)在,已有充分的數(shù)據(jù)露出 CPU 皆備不錯用于大模子推理場景。
CPU 適用于以下大模子推理場景:
場景 1: 大模子推理需要的內(nèi)存跨越了單塊 GPU 的顯存容量,需要多塊或更高配 GPU 卡,采選 CPU 決議,不錯訓(xùn)斥本錢;
場景 2: 應(yīng)用肯求量小,GPU 哄騙率低,采選 CPU 推理,資源永訣的粒度更小,可有用訓(xùn)斥起建本錢;
場景 3: GPU 資源緊缺,CPU 更容易獲取,且不錯勝任大模子推理。
天翼云 EMR 實例 DeepSeek-R1-Distill-Qwen-7B 蒸餾模子部署實踐
本節(jié)踐諾主要先容如安在天翼云 EMR 實例上,基于 Intel ?? xFasterTransformer 加速庫和 vllm 推理引擎完成模子部署,并展示有關(guān)性能狡計。
職業(yè)部署
為了陋劣用戶使用,天翼云融合英特爾制作了一鍵部署的云主機鏡像,內(nèi)置 DeepSeek-R1-Distill-Qwen-7B 模子、vLLM 推理框架、xFT 加速庫以及 open-webui 前端可視環(huán)境。您可在天翼云限制臺接納下列資源池和鏡像,洞開云主機進行體驗。

完成云主機洞開明,推理職業(yè)會在 5 分鐘內(nèi)自動啟動,您無需進行任何其他操作。
注:如需在云主機外造訪職業(yè),您需要綁定彈性 IP,并在安全組內(nèi)放行 22/3000/8000 端口。
模子使用
open-webui 前端使用
鏡像已內(nèi)置 open-webui,并已完成和 vllm 的勾通設(shè)置,可平直通過以下地址進行造訪 :
http:// [ 彈性 IP ] :3000/
注:1. 初次掀開頁面時,您需要先完成料理員注冊,以進行后續(xù)的用戶料理。注冊數(shù)據(jù)均保存在云實例的 /root/volume/open-webui 目次下。
2. 若是初次掀開對話頁面時莫得模子可供接納 , 請您稍等幾分鐘讓模子完成加載即可。

vllm api 調(diào)用
鏡像內(nèi)置 vllm 職業(yè)可平直通過如下地址造訪:
# 根旅途 http:// [ 彈性 IP ] :8000/# 查詢現(xiàn)存模子 http:// [ 彈性 IP ] :8000/v1/models# 其他 api 接口參閱 vllm 文檔
注:vllm 職業(yè)設(shè)置有 API_KEY,您可在云實例的 /root/recreate_container.sh 文獻濫觴稽察到現(xiàn)時值,并可進行修改以確保職業(yè)安全。
性能狡計
借助于英特爾 AMX 的加速智商,本推理職業(yè)大概取得顯赫的性能普及,天翼云完成測試并給出參考狡計如下:
基本參數(shù)
vcpu 數(shù):24(物理核 12)
內(nèi)存:64GB
硬盤:60G 通用型 SSD
模子:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入 token 個數(shù):30-60
輸出 token 個數(shù):256
性能數(shù)據(jù)
平均 token 生成速率:

首 token 時延:

在天翼云 c8e 系列 24vcpu 云主機上,啟用 AMX 加速智商后,DeepSeek 7B 蒸餾模子(BF16)推理速率大概獨特 9token/s,知足日常使用需求。
基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 實踐性能狡計
DeepSeek R1 671B 滿血版模子以其不凡的性能,為用戶帶來了極致的結(jié)尾體驗,不外其部署本錢也羈系小覷。若采選傳統(tǒng)的 GPU 部署神志,需要 8-16 張 GPU 才智提供彌漫的扶植,這無疑大幅增多了硬件購置、能耗以及保養(yǎng)等方面的本錢。
在這么的配景下,天翼云基于英特爾 ? 提供的至強 ? 6 處理器職業(yè)器進行了 DeepSeek R1 671B 滿血版 Q4_K_M 模子的部署嘗試,測試結(jié)尾如下 :
1-instance 1-socket:
平均微辭性能 9.7~10 token/s
2-instance 1-socket:
平均 7.32 token/s 和 7.38token/s, 共 14.7token/s
從上頭測試數(shù)據(jù)不錯看到,采選單實例單 socket 部署下,DeepSeek R1 671B 滿血版模子可達到平均 9.7~10 token/s 的微辭量,而在雙實例部署時勢中,總體微辭量普及至 14.7 token/s。單顆 CPU 系統(tǒng)的微辭性能不錯達到普通用戶淺近使用的需要。
英特爾?至強?6 處理器簡介
英特爾 ? 至強 ? CPU 為 DeepSeek R1 671B 模子的部署提供了一個極具競爭力的決議。英特爾 ? 至強 ? CPU 具備扶植 T 級超大內(nèi)存的智商,這使得它在權(quán)重存儲與加載方面推崇高效。對于像 DeepSeek R1 671B 這么的超大模子,其所需的顯存容量在多卡 GPU 設(shè)置下才智知足,而英特爾 ? 至強 ? CPU 大概憑借其強勁的內(nèi)存扶植智商,為該模子提供考究的入手環(huán)境。
此外,DeepSeek R1 模子采選的 MOE(Mixture of Experts)結(jié)構(gòu),通過參數(shù)稀薄化的神志,使得在單 token 推理時僅需激活極少各人參數(shù)。這種性格顯赫訓(xùn)斥了推理經(jīng)過中的算力條目,與 CPU 的狡計特色相契合,使得模子在 CPU 系統(tǒng)上的入手愈加高效。這意味著在英特爾 ? 至強 ? CPU 上部署 DeepSeek R1 671B 模子,不僅大概充分闡揚模子的性能上風(fēng),還能有用訓(xùn)斥部署本錢,幸免了對多數(shù) GPU 的依賴。
如需復(fù)現(xiàn)以上性能測試結(jié)尾,請參看附錄 2
回首
通過本次實踐,不管是在天翼云 EMR 云實例上結(jié)合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸餾模子,依然基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 模子,均考據(jù)了 CPU 系統(tǒng)在 DeepSeek 大模子推理上的可行性和合乎業(yè)界浩蕩條目的性能推崇。CPU 系統(tǒng)不僅大概機動頂住不同領(lǐng)域的模子需求,不管是輕量化蒸餾模子依然全功能滿血模子,都能高效知足用戶場景需求,提供了一種低本錢、經(jīng)濟高效的搞定決議。
附錄 1 ? 英特爾 ? 至強 ? 可擴張?zhí)幚砥髋c AI 加速本事最新英特爾?至強?可擴張?zhí)幚砥骶悠酚⑻貭柕谖宕?至強?可擴張?zhí)幚砥鳎ù?Emerald Rapids)——為 AI 加速而生
第五代英特爾 ? 至強 ? 處理器以專為 AI 使命負載量身定制的設(shè)想理念,終明晰中樞架構(gòu)和內(nèi)存系統(tǒng)的雙重飛躍。其 64 中樞設(shè)想搭配高達 320MB 的三級緩存(每中樞由 1.875MB 普及至 5MB),相較上代緩存容量終了近三倍增長,為大領(lǐng)域并行 AI 推理提供充裕的土產(chǎn)貨數(shù)據(jù)存儲空間。與此同期,處理器扶植 DDR5-5600 高速內(nèi)存,單路最大 4TB 的容量保證了大數(shù)據(jù)處理時的帶寬和蔓延上風(fēng)。基于這些硬件普及,Emerald Rapids 舉座性能較上一代普及 21%,AI 推感性能平均普及 42%,在大說話模子推理場景中可終了最高 1.5 倍的性能加速,同期大幅訓(xùn)斥總領(lǐng)有本錢達 77%。
英特爾?至強?6 處理器(代號 GNR Granite Rapids)——引頸 CPU AI 算力變嫌
全新 GNR 處理器專為頂住東談主工智能、數(shù)據(jù)分析及科學(xué)狡計等狡計密集型任務(wù)而設(shè)想。該居品在內(nèi)核數(shù)目、內(nèi)存帶寬及專用 AI 加速器方面均終了轉(zhuǎn)折打破:
中樞與性能:每 CPU 配備多達 128 個性能中樞,單路中樞數(shù)較上一代翻倍,同期平均單核性能普及達 1.2 倍、每瓦性能普及 1.6 倍,進一步強化了 CPU 在大模子推理中的并立處賢達商;
AI 加速功能:內(nèi)置英特爾 ? 高檔矩陣擴張(AMX)新增對 FP16 數(shù)據(jù)類型的扶植,使得生成式 AI 和傳統(tǒng)深度學(xué)習(xí)推理任務(wù)均能取得顯赫加速;
內(nèi)存與 I/O 打破:扶植 DDR5-6400 內(nèi)存及英特爾首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 本事,有用將內(nèi)存帶寬普及至上一代的 2.3 倍;同期,高達 504MB 的三級緩存和低蔓延設(shè)想確保數(shù)據(jù)大概更快加載,為復(fù)雜模子素質(zhì)和推理裁減反映時辰。
英特爾 ? 至強 ? 6 處理器不僅通過更多的中樞和更高的單線程性能普及了 AI 大模子推賢達商,同期也大概行為機頭 CPU 為 GPU 和其他加速器提供高速數(shù)據(jù)供給,進一步裁減舉座模子素質(zhì)時辰。在知足攙和使命負載需求的同期,其 TCO 平均訓(xùn)斥 30%,大模子推理加速最高可達 2.4 倍。
不管是第五代至強依然全新的至強 6 處理器,英特爾均通過在中樞架構(gòu)、緩存系統(tǒng)、內(nèi)存本事和專用 AI 加速器方面的全面變嫌,提供了業(yè)界率先的 AI 狡計扶植。這兩款居品為數(shù)據(jù)中心和高性能狡計平臺在 AI 推理、素質(zhì)以及種種化使命負載下提供了強勁而高效的算力保險。

△圖 1 英特爾高檔矩陣擴張(AMX)英特爾全目的的 AI 軟件生態(tài)扶植
英特爾過甚配合股伴憑借多年 AI 積蓄,圍繞至強 ? 可擴張?zhí)幚砥鞔蛟炝送晟频能浖鷳B(tài):平凡扶植主流開源框架,通過插件優(yōu)化及種種化開源用具鏈,使用戶在 x86 平臺上大概毛糙開發(fā)、部署通用 AI 應(yīng)用,無需手動調(diào)遣,同期確保從末端到云的全程安全保護。
其中,xFasterTransformer(xFT)是英特爾官方開源的 AI 推理框架,專為大說話模子在至強 ? 平臺上深度優(yōu)化。xFT 不僅扶植多種數(shù)據(jù)精度(FP16、BF16、INT8、INT4),還能哄騙多 CPU 節(jié)點終了分散式部署,顯赫普及推感性能并訓(xùn)斥本錢。其直爽的裝置和與主流 Serving 框架(如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,匡助用戶快速加速大模子應(yīng)用。在 3.1 節(jié)中基于天翼云 EMR 云主機和 xFasterTransformer 加速引擎終明晰對與 DeepSeek R1 蒸餾模子的高效推理部署。

△圖 2 英特爾提供 AI 軟件用具 全面兼容主流 AI 開發(fā)框架附錄 2 CPU 環(huán)境下部署 DeepSeek-R1 671B 模子實踐環(huán)境設(shè)置
硬件設(shè)置
CPU:Intel ? Xeon ? 6980P Processor, 128core 2.00 GHz
內(nèi)存 24*64GB DDR5-6400
存儲 1TB NVMe SSD
軟件環(huán)境
OS: Ubuntu 22.04.5 LTS
Kernel: 5.15.0-131-generic
llama.cpp: github bd6e55b
cmake: 3.22.0
gcc/g++: 11.4.0
Python: 3.12.8
git: 2.34.1
BIOS ?關(guān)閉 sub NUMA 有關(guān)設(shè)置。
注:版塊是指本測試中職業(yè)器上裝置的版塊,并?條目的最低版塊。
部署模范 1. 裝置 llama.cpp
參考 llama.cpp 官?的裝置證實,咱們的模范如下。
# 下載 llama.cpp 推理框架源碼 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 事先準備 intel oneapi 庫 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 庫對 llama.cpp 進行編譯 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc
2. 下載模子?件
社區(qū)提供了從 1bit 到 8bit 不同版塊的量化選項,具體區(qū)別不錯參考社區(qū)網(wǎng)頁。咱們接納了使用最受迎接的 Q4_K_M 版塊。若是追求最好結(jié)尾,提出使用 Q8_0 版塊。


# 下載 unsloth 制作的社區(qū)版量化模子 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 提出 nohup 實施 , 瞻望至少需要半天時辰 , 同期確保磁盤容量彌漫 400G.git lfs pull — include= " DeepSeek-R1-Q4_K_M/* "
3. 模子加載和運?
使用 llama-cli,指定模子文獻旅途并啟用交互時勢,DeepSeek R1 滿血版就不錯在 CPU 上成功入手了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
底下用幾個示例展現(xiàn) DeepSeek-R1 671B 滿血版強勁的的 reasoning 推賢達商 :
測試模子自我剖釋 :
考據(jù)推理能?的經(jīng)典"草莓"問題 :

"等燈等燈"的意旨真諦 :

4. 性能及優(yōu)化
那么 CPU 運?滿?版 R1 的性能奈何樣呢?咱們作念了有關(guān)性能測試。對于 Q4_K_M 模子,使?如下號召進行 :
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "以寥寂的夜行者為題寫一篇 750 字的散文,描繪一個東談主在城市中夜晚漫無目的行走的熱誠與所見所感,以及夜的稀薄予以的特有感悟。"
這?使? numactl 來指定使?單路 CPU ( 0-127, 6980P 有 128 核 ) ,以及這?路 CPU 的內(nèi)存節(jié)點(numa0),幸免跨 numa 傳輸以獲取最好性能。
llama.cpp 是土產(chǎn)貨編譯的,編譯的時候使? Intel oneAPI 不錯有用普及它的性能。英特爾嘗試?了 oneAPI ?的 Intel C++ 編譯器和數(shù)學(xué)加速庫 MKL,結(jié)合 jemalloc 內(nèi)存料理優(yōu)化,推理速率不錯達到每秒 9.7~10 詞元 ( TPS, tokens per second ) 。
上?的實驗是在單路 CPU 上進?的,咱們?在兩路 CPU 上各?獨?啟動 1 個模子實例,總速率不錯達到 14.7TPS ( 7.32TPS+7.38TPS ) 。
再進?步,英特爾不雅察到基于現(xiàn)存的 llama.cpp 軟件?案,在 CPU 平臺莫得終了?效的各人并?和張量并?等優(yōu)化,CPU 核?利?率和帶寬資源莫得充分闡揚出來,6980P 的 128 核?運? 1 個模子還有不少性能儲備。瞻望不錯不息增多實例數(shù)來取得更好的總 TPS。
另外,經(jīng)常情況下,CPU 的 SNC ( Sub-NUMA Clustering ) 勸誘不錯取得更?的帶寬,然而受限于軟件并未優(yōu)化終了考究匹配,這次實驗關(guān)閉了 SNC 測試。
以下?式的系統(tǒng)設(shè)置也有助于普及性能:
BIOS ?關(guān)閉 AMP prefetcher
? cpupower 掀開 CPU 的 pstate 性能時勢
提? CPU 的 uncore 頻率
關(guān)閉超線程 ( Hyper-Threading )
注 : 為了加速檢會進程,咱們結(jié)尾了詞元輸出?度 ( -n 128 ) 。經(jīng)過考據(jù),增多輸出?度 ( 舉例 -n 512 ) 對于生成性能狡計的影響不大。
* 本文系量子位獲授權(quán)刊載九游體育娛樂網(wǎng),不雅點僅為原作家總共。
