news 2026/5/4 2:05:30

qwen3.6-27B-FP8部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
qwen3.6-27B-FP8部署

目录路径按需调整

当前根目录/

1、环境安装

cd /

conda create -n vllm-env python=3.10
conda activate vllm-env
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install vllm

2、验证

import vllm
print(vllm.__version__)
3、魔塔社区下载

pip install modelscope

mkdir Qwen3.6-27B-FP8

modelscope download --model Qwen/Qwen3.6-27B-FP8

4、模型启动脚本:


#!/bin/bash
export CUDA_VISIBLE_DEVICES=0,1

# Qwen3.6-27B-FP8 双卡自动部署脚本
# 功能:激活指定虚拟环境,自动停止旧服务,并使用双卡启动 vLLM

# --- 配置区域 ---
VENV_PATH="/vllm-env"
MODEL_PATH="/root/ai-models/Qwen/Qwen3___6-27B-FP8" # 本地模型绝对路径
PORT=8000
HOST="0.0.0.0"
TP_SIZE=2 # 张量并行度,双卡设为 2
MAX_MODEL_LEN=262144 # 上下文长度,根据显存调整 (32k/64k/128k)
GPU_MEM_UTIL=0.9 # 显存利用率
LOG_FILE="vllm_server.log"

# --- 函数定义 ---

# 1. 激活虚拟环境
#activate_venv() {
# if [ -f "${VENV_PATH}/bin/activate" ]; then
# echo ">>> 正在激活虚拟环境: ${VENV_PATH}"
# source "${VENV_PATH}/bin/activate"
#else
# echo "错误: 虚拟环境路径不存在: ${VENV_PATH}/bin/activate"
# exit 1
#fi
#}

# 2. 停止现有服务
stop_existing_service() {
echo ">>> 检查端口 ${PORT} 是否被占用..."
PID=$(lsof -ti:${PORT} 2>/dev/null)
if [ -n "$PID" ]; then
echo ">>> 发现占用进程 PID: $PID,正在终止..."
kill -9 $PID
sleep 2
echo ">>> 旧进程已终止。"
else
echo ">>> 端口 ${PORT} 空闲,无需停止旧进程。"
fi
}

# 3. 检查环境
check_environment() {
if ! command -v vllm &> /dev/null; then
echo "错误: vLLM 未安装。请确保在虚拟环境中已执行: pip install vllm"
exit 1
fi

if [ ! -d "${MODEL_PATH}" ]; then
echo "错误: 模型路径不存在: ${MODEL_PATH}"
exit 1
fi

GPU_COUNT=$(nvidia-smi --query-gpu=name --format=csv,noheader 2>/dev/null | wc -l)
if [ "$GPU_COUNT" -lt 2 ]; then
echo "警告: 检测到少于 2 张 GPU,但配置为 TP_SIZE=2。请确认硬件连接。"
fi
}

# 4. 启动服务
start_service() {
echo ">>> 正在启动 Qwen3.6-27B-FP8 (TP=${TP_SIZE}, Context=${MAX_MODEL_LEN})..."
echo ">>> 日志将输出到 ${LOG_FILE}"

nohup vllm serve ${MODEL_PATH} \
--host ${HOST} \
--port ${PORT} \
--tensor-parallel-size ${TP_SIZE} \
--max-model-len ${MAX_MODEL_LEN} \
--gpu-memory-utilization ${GPU_MEM_UTIL} \
--dtype auto \
--served-model-name qwen3-local \
> ${LOG_FILE} 2>&1 &

NEW_PID=$!
echo ">>> 服务已在后台启动,PID: ${NEW_PID}"
echo ">>> 等待服务初始化..."

for i in {1..30}; do
if curl -s http://localhost:${PORT}/health > /dev/null 2>&1; then
echo ">>> 服务启动成功!访问地址: http://${HOST}:${PORT}/v1"
return 0
fi
sleep 2
done

echo ">>> 警告: 服务启动超时,请查看 ${LOG_FILE} 排查错误。"
return 1
}

# --- 主执行流程 ---
echo "========================================"
echo " Qwen3.6-27B-FP8 双卡部署助手"
echo "========================================"

#activate_venv
check_environment
stop_existing_service
start_service

echo "========================================"
echo " 部署完成。使用 'tail -f ${LOG_FILE}' 查看实时日志"
echo "========================================"

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 2:03:25

微博图片溯源神器:3秒找到原作者,告别图片版权困扰

微博图片溯源神器:3秒找到原作者,告别图片版权困扰 【免费下载链接】WeiboImageReverse Chrome 插件,反查微博图片po主 项目地址: https://gitcode.com/gh_mirrors/we/WeiboImageReverse 在微博上看到一张惊艳的照片却不知道是谁拍的&…

作者头像 李华
网站建设 2026/5/4 1:55:25

AI揭示阿尔茨海默病新病因与治疗路径

1. AI如何揭示阿尔茨海默病的新病因与治疗路径在加州大学圣地亚哥分校(UCSD)的实验室里,一组研究人员正通过AI模型分析海量基因数据。他们发现了一个令人震惊的事实:过去被认为只是阿尔茨海默病生物标志物的PHGDH基因,…

作者头像 李华
网站建设 2026/5/4 1:54:28

Switch/Measure单元技术解析与应用实践

1. Switch/Measure单元的技术演进与核心价值在电子测试领域工作了十五年,我见证了测试系统架构从集中式VXI到模块化PXI,再到如今混合式Switch/Measure方案的演进历程。传统测试系统设计往往陷入两难:选择高集成度的VXI/PXI意味着承受高昂成本…

作者头像 李华
网站建设 2026/5/4 1:53:27

新荷花冲刺港股:年营收13亿 毒性普通饮片收入占比90% 已获IPO备案

雷递网 雷建平 5月3日四川新荷花中药饮片股份有限公司(简称:“新荷花”)日前更新招股书,准备在港交所上市。新荷花历史上曾多次寻求在A股上市,均未能成功。最近一次是2024年4月,终止辅导备案,寻…

作者头像 李华
网站建设 2026/5/4 1:53:27

aof缓冲区是用来干嘛?

文章目录1. 常规写入场景:性能与安全的平衡2. AOF 重写期间:保障旧日志的完整性重点区分:AOF 缓冲区 vs AOF 重写缓冲区在 Redis 的 AOF(Append Only File)持久化机制中, AOF 缓冲区(AOF Buffer…

作者头像 李华