如何测试DeepSeek-R1-Distill-Qwen-1.5B服务状态？日志查看教程-开发者社区

如何测试DeepSeek-R1-Distill-Qwen-1.5B服务状态？日志查看教程

你刚用vLLM启动了DeepSeek-R1-Distill-Qwen-1.5B模型服务，看着终端里滚动的日志，心里可能在想：这到底启动成功了没有？服务真的在运行吗？怎么才能确认一切正常？

别担心，这是每个开发者都会遇到的问题。今天我就带你一步步搞定服务状态测试，从查看日志到实际调用，让你彻底掌握DeepSeek-R1-Distill-Qwen-1.5B服务的健康检查方法。

1. 先了解你的模型：DeepSeek-R1-Distill-Qwen-1.5B是什么？

在开始测试之前，咱们先简单了解一下这个模型。DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术融合R1架构优势打造的轻量化版本。

简单来说，它有几个特点：

体积小但能力强：参数压缩到了1.5B级别，但保持了85%以上的原始模型精度
垂直场景优化：在特定领域（如法律、医疗）表现更好
硬件友好：支持INT8量化，内存占用大幅降低，在普通显卡上就能跑

1.1 使用这个模型的小建议

根据官方建议，用这个模型时注意几点：

温度设置：最好在0.5-0.7之间，推荐0.6，这样输出更稳定
提示词写法：所有指令都放在用户提示里，不要加系统提示
数学问题：如果要问数学题，可以加上“请逐步推理，并将最终答案放在\boxed{}内”
多次测试：评估性能时多测几次取平均值

还有个有趣的现象：这个模型有时候会“偷懒”，输出“\n\n”就结束了。为了让它好好思考，可以在提示里强制要求以“\n”开头。

2. 第一步：查看服务启动日志

服务启动后，第一件事就是看日志。日志就像模型的“体检报告”，能告诉你服务是否健康。

2.1 进入工作目录

打开终端，先切换到你的工作目录。如果你按照常规方式部署，工作目录通常是/root/workspace：

cd /root/workspace

这个命令很简单，就是进入工作目录。如果提示目录不存在，检查一下你的实际部署路径。

2.2 查看启动日志

现在来看日志文件。vLLM启动时通常会生成日志文件，我们假设它叫deepseek_qwen.log：

cat deepseek_qwen.log

cat命令会把整个文件内容显示在终端上。如果文件很大，你可以用tail命令只看最后几行：

tail -100 deepseek_qwen.log # 查看最后100行

或者实时查看日志更新：

tail -f deepseek_qwen.log # 实时跟踪日志

2.3 如何判断启动成功？

看到日志后，怎么知道启动成功了呢？主要看几个关键信号：

成功标志：

看到“Uvicorn running on...”这样的消息
显示监听端口（通常是8000）
没有明显的错误信息
最后日志停止滚动，或者显示服务已就绪

失败标志：

出现“ERROR”或“CRITICAL”级别的日志
端口被占用错误
内存不足错误
模型加载失败

如果看到类似下面的信息，基本可以确定启动成功了：

INFO: Started server process [12345] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

有时候启动过程需要几分钟，特别是第一次加载模型时。耐心等待，只要没有报错，一般都能成功。

3. 第二步：实际测试模型服务

日志显示启动成功，但服务真的能用吗？最好的验证方法就是实际调用一下。

3.1 准备测试环境

我建议用Jupyter Lab来测试，这样交互更方便。如果你还没打开Jupyter Lab，可以在终端启动：

jupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root

然后在浏览器打开http://你的服务器IP:8888，输入token就能用了。

3.2 编写测试代码

在Jupyter中新建一个Python笔记本，输入下面的测试代码。这段代码封装了一个简单的客户端类，方便你测试各种功能：

from openai import OpenAI import requests import json class LLMClient: def __init__(self, base_url="http://localhost:8000/v1"): """初始化客户端 参数： base_url: 模型服务的地址，默认是本地8000端口 """ self.client = OpenAI( base_url=base_url, api_key="none" # vLLM通常不需要API密钥 ) self.model = "DeepSeek-R1-Distill-Qwen-1.5B" def chat_completion(self, messages, stream=False, temperature=0.7, max_tokens=2048): """基础的聊天完成功能 参数： messages: 对话消息列表 stream: 是否使用流式输出 temperature: 温度参数，控制随机性 max_tokens: 最大生成token数 """ try: response = self.client.chat.completions.create( model=self.model, messages=messages, temperature=temperature, max_tokens=max_tokens, stream=stream ) return response except Exception as e: print(f"API调用错误: {e}") return None def stream_chat(self, messages): """流式对话示例 参数： messages: 对话消息列表 """ print("AI: ", end="", flush=True) full_response = "" try: stream = self.chat_completion(messages, stream=True) if stream: for chunk in stream: if chunk.choices[0].delta.content is not None: content = chunk.choices[0].delta.content print(content, end="", flush=True) full_response += content print() # 换行 return full_response except Exception as e: print(f"流式对话错误: {e}") return "" def simple_chat(self, user_message, system_message=None): """简化版对话接口 参数： user_message: 用户消息 system_message: 系统提示（可选） """ messages = [] if system_message: messages.append({"role": "system", "content": system_message}) messages.append({"role": "user", "content": user_message}) response = self.chat_completion(messages) if response and response.choices: return response.choices[0].message.content return "请求失败" # 使用示例 if __name__ == "__main__": # 初始化客户端 llm_client = LLMClient() # 测试普通对话 print("=== 普通对话测试 ===") response = llm_client.simple_chat( "请用中文介绍一下人工智能的发展历史", "你是一个有帮助的AI助手" ) print(f"回复: {response}") print("\n=== 流式对话测试 ===") messages = [ {"role": "system", "content": "你是一个诗人"}, {"role": "user", "content": "写两首关于秋天的五言绝句"} ] llm_client.stream_chat(messages)

3.3 运行测试

把上面的代码复制到Jupyter单元格中，按Shift+Enter运行。你应该能看到类似下面的输出：

=== 普通对话测试 === 回复: 人工智能的发展历史可以追溯到20世纪50年代... === 流式对话测试 === AI: 秋风吹落叶，金黄铺满地...

如果看到这样的输出，恭喜你！服务完全正常。

3.4 常见问题及解决方法

测试时可能会遇到一些问题，这里列举几个常见的：

问题1：连接被拒绝

API调用错误: Connection refused

解决方法：

检查服务是否真的启动了：ps aux | grep vllm
检查端口是否正确：默认是8000端口
检查防火墙设置

问题2：模型不存在

API调用错误: Model DeepSeek-R1-Distill-Qwen-1.5B not found

解决方法：

检查vLLM启动时指定的模型名称
确认模型文件路径正确
查看vLLM日志，看模型是否加载成功

问题3：响应时间太长

请求超时

解决方法：

检查服务器资源使用情况（CPU、内存、GPU）
尝试减少max_tokens参数
检查网络延迟

问题4：输出质量不高

回复内容不连贯或重复

解决方法：

调整temperature参数（试试0.6）
优化提示词写法
按照前面说的，强制以“\n”开头

4. 第三步：更全面的健康检查

除了基本的功能测试，你还可以做一些更全面的检查，确保服务稳定可靠。

4.1 性能测试

测试一下模型的响应速度，这对实际应用很重要：

import time def performance_test(client, test_times=5): """性能测试：测量平均响应时间""" total_time = 0 test_prompt = "你好，请简单介绍一下自己" for i in range(test_times): start_time = time.time() response = client.simple_chat(test_prompt) end_time = time.time() response_time = end_time - start_time total_time += response_time print(f"第{i+1}次测试：{response_time:.2f}秒，回复长度：{len(response)}") avg_time = total_time / test_times print(f"\n平均响应时间：{avg_time:.2f}秒") return avg_time # 使用 llm_client = LLMClient() performance_test(llm_client)

4.2 功能测试

测试模型的各种能力，确保它符合你的需求：

def capability_test(client): """能力测试：测试不同场景下的表现""" test_cases = [ { "name": "常识问答", "prompt": "太阳从哪边升起？", "expected": "东" # 期望包含的关键词 }, { "name": "数学计算", "prompt": "计算15乘以28等于多少？", "expected": "420" }, { "name": "中文理解", "prompt": "解释一下'画蛇添足'这个成语的意思", "expected": "多此一举" }, { "name": "逻辑推理", "prompt": "如果所有猫都怕水，而汤姆是一只猫，那么汤姆怕水吗？", "expected": "怕" } ] for test in test_cases: print(f"\n测试：{test['name']}") print(f"问题：{test['prompt']}") response = client.simple_chat(test['prompt']) print(f"回答：{response[:100]}...") # 只显示前100字符 # 简单检查是否包含期望的关键词 if test['expected'].lower() in response.lower(): print("✓ 测试通过") else: print("✗ 可能需要进一步检查")

4.3 压力测试（谨慎使用）

如果你想测试服务的极限，可以尝试并发请求。但要注意，不要在生产环境随意做压力测试：

import threading def stress_test(client, concurrent_users=3): """简单的压力测试：模拟多个用户同时请求""" def user_request(user_id): prompt = f"用户{user_id}：请说一句鼓励的话" response = client.simple_chat(prompt) print(f"用户{user_id}收到回复：{response[:30]}...") threads = [] for i in range(concurrent_users): thread = threading.Thread(target=user_request, args=(i,)) threads.append(thread) thread.start() for thread in threads: thread.join() print(f"\n{concurrent_users}个并发请求完成")

5. 第四步：监控与维护

服务测试通过后，还需要考虑长期的监控和维护。

5.1 监控服务状态

你可以写一个简单的监控脚本，定期检查服务健康：

import requests import time from datetime import datetime def monitor_service(interval_seconds=60): """监控服务状态""" url = "http://localhost:8000/health" # vLLM的健康检查端点 while True: try: response = requests.get(url, timeout=5) if response.status_code == 200: status = "健康" else: status = f"异常（状态码：{response.status_code}）" except Exception as e: status = f"不可用（错误：{str(e)}）" current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S") print(f"[{current_time}] 服务状态：{status}") time.sleep(interval_seconds) # 注意：这个监控脚本会一直运行，记得在不需要时停止

5.2 日志管理

随着服务运行时间增长，日志文件会越来越大。建议定期清理或归档：

# 备份当前日志 cp deepseek_qwen.log deepseek_qwen.log.$(date +%Y%m%d) # 清空日志文件（谨慎操作） > deepseek_qwen.log # 或者使用日志轮转工具 # 可以配置logrotate来自动管理日志

5.3 资源监控

监控服务器的资源使用情况，确保服务稳定运行：

# 查看GPU使用情况 nvidia-smi # 查看内存使用 free -h # 查看CPU使用 top # 查看磁盘空间 df -h

6. 总结：建立完整的测试流程

通过今天的教程，你应该已经掌握了DeepSeek-R1-Distill-Qwen-1.5B服务状态测试的全套方法。让我帮你总结一下关键步骤：

6.1 完整的测试清单

下次部署服务后，按照这个清单一步步检查：

查看启动日志：用cat或tail命令确认服务启动成功
基本功能测试：用Python客户端调用服务，验证能正常对话
性能评估：测试响应时间，确保满足需求
能力验证：测试模型在特定任务上的表现
监控设置：建立简单的健康检查机制

6.2 遇到问题时的排查思路

如果测试失败，不要慌，按照这个思路排查：

先看日志：90%的问题都能在日志中找到线索
检查网络：确认端口开放，服务可访问
验证配置：检查模型路径、参数设置是否正确
资源检查：确保有足够的内存和GPU资源
简化测试：用最简单的测试用例排除复杂因素

6.3 最佳实践建议

根据我的经验，给你几个实用建议：

测试环境隔离：在测试通过前，不要直接部署到生产环境
逐步验证：从简单测试开始，逐步增加复杂度
记录结果：保存测试结果，方便后续对比和问题追踪
定期检查：即使服务正常运行，也要定期做健康检查
备份配置：保存成功的配置，方便快速恢复

6.4 最后的提醒

DeepSeek-R1-Distill-Qwen-1.5B是个很不错的轻量级模型，但在使用时要注意它的特点：

温度参数对输出质量影响很大，多试试不同的值
提示词写法很关键，好的提示能大幅提升效果
数学和逻辑问题时，记得用推荐的格式
如果遇到输出不理想，先调整参数再下结论

服务测试不是一次性的工作，而是持续的过程。建立一个好的测试习惯，能帮你节省大量排查问题的时间。现在，你的DeepSeek-R1-Distill-Qwen-1.5B服务应该已经正常运转了，去试试它的能力吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何测试DeepSeek-R1-Distill-Qwen-1.5B服务状态？日志查看教程