AI辅助渗透测试：基于Gemini CLI的提示词设计与实战应用-开发者社区

1. 项目概述：当AI助手成为渗透测试的“副驾驶”

最近在整理自己的渗透测试工作流时，我一直在思考一个问题：如何让那些重复性的、需要查阅大量文档的“体力活”变得更高效？比如，为一个新发现的Web服务快速生成一份基础的攻击面分析报告，或者根据一个模糊的漏洞描述去构造可用的PoC（概念验证）代码。传统的做法是打开多个浏览器标签页，在搜索引擎、官方文档和Exploit-DB之间反复横跳，这个过程不仅耗时，还容易打断思路。

于是，我开始尝试将大型语言模型（LLM）集成到我的日常安全测试中。我使用的工具是gemini-cli，一个通过命令行与Google Gemini模型交互的轻量级工具。这个项目的核心，就是整理和打磨一套专门用于辅助渗透测试的“提示词”（Prompts）。这些提示词不是简单的问答，而是经过精心设计的“指令集”，旨在引导AI理解安全测试的上下文、遵循特定的方法论（如OWASP Top 10），并输出结构化、可直接用于下一步操作的结果。你可以把它理解为给AI这位“副驾驶”编写的一份详尽的操作手册，告诉它“当我们遇到这种情况时，你应该这样思考，并给我这样的输出”。

这套提示词库覆盖了从信息收集、漏洞分析、利用代码编写到报告撰写的多个阶段，目标是将安全研究员从繁琐的信息筛选中解放出来，更专注于策略制定和深度漏洞挖掘。接下来，我将详细拆解这套工作流的构建思路、核心提示词的设计哲学，以及在实际操作中如何与gemini-cli配合，让AI真正成为你手边得力的安全分析助手。

2. 环境搭建与工具链配置

在开始“驾驶”AI之前，我们需要先准备好“车辆”和“地图”。整个工作流基于Kali Linux环境，核心工具是gemini-cli。选择它是因为其纯粹的命令行交互方式，能无缝嵌入到现有的终端工作流和自动化脚本中，避免了在图形界面和命令行之间切换的割裂感。

2.1 核心工具：gemini-cli的安装与初始化

首先，确保你的Kali Linux已经更新到最新状态。gemini-cli是一个Python包，因此我们需要通过pip进行安装。我强烈建议使用虚拟环境来管理依赖，以避免与系统或其他项目的Python包发生冲突。

# 更新系统包列表 sudo apt update && sudo apt upgrade -y # 安装Python3虚拟环境工具（如果尚未安装） sudo apt install python3-venv python3-pip -y # 创建一个专用于AI安全工作的虚拟环境 python3 -m venv ~/ai_sec_venv # 激活虚拟环境 source ~/ai_sec_venv/bin/activate # 安装gemini-cli pip install gemini-cli

安装完成后，最关键的一步是配置API密钥。你需要前往Google AI Studio创建一个API密钥。在gemini-cli中，可以通过交互式命令进行配置：

# 运行配置命令，按提示输入你的API密钥 gemini config

注意：API密钥的安全管理。切勿将API密钥硬编码在脚本或提交到版本控制系统（如Git）中。gemini-cli默认会将密钥保存在用户主目录的配置文件中（~/.config/gemini/config.json），这通常是相对安全的。但对于团队协作或更高安全要求的环境，可以考虑使用环境变量或密钥管理工具（如HashiCorp Vault）来动态注入密钥。

配置完成后，可以进行一个简单的测试，验证连接和模型响应是否正常：

echo "Hello, I'm a security researcher. Respond with 'Ready to assist.' if you understand." | gemini chat

如果一切正常，你将看到来自Gemini模型的问候回应。至此，你的“AI副驾驶”引擎已经启动。

2.2 辅助工具集：增强上下文与处理能力

仅有gemini-cli还不够，一个高效的渗透测试助手需要“眼睛”和“手”。我们需要一些辅助工具来为AI提供更丰富的上下文信息，并处理AI生成的输出。

jq：用于处理和格式化AI返回的JSON数据。在请求AI进行结构化输出（如生成JSON格式的漏洞列表）时，jq是必不可少的。
```
sudo apt install jq -y
```
curl与httpie：用于快速进行网络请求，验证AI生成的Payload或探测目标。httpie相比curl有更友好、色彩化的输出。
```
sudo apt install curl httpie -y
```
tmux或screen：用于管理长时间运行的会话。当你需要让AI持续分析一个复杂目标的扫描结果时，一个稳定的会话管理器至关重要。
```
sudo apt install tmux -y
```
文本编辑器：准备好你熟悉的编辑器（如vim,nano,code）。你需要经常编辑和迭代你的提示词文件。

配置好这个基础工具链，我们就拥有了一个稳定、可扩展的AI辅助测试环境。接下来，我们将深入核心部分：如何设计真正有用的提示词。

3. 核心提示词设计哲学与结构解析

设计用于渗透测试的提示词，与普通的聊天提示有本质区别。它需要具备强指令性、上下文丰富性、输出结构化和安全性约束。我的设计哲学遵循以下几个核心原则：

原则一：角色扮演与上下文设定每次交互开始时，必须明确赋予AI一个角色，并设定清晰的边界。这能显著提高回答的相关性和准确性。例如：

“你是一名专业的渗透测试工程师，专注于Web应用安全。你的任务是协助我分析目标、生成测试用例和解释漏洞原理。你提供的所有代码或命令都仅用于授权的安全测试和教育目的。”

原则二：任务分解与逐步引导不要一次性提出一个庞大而模糊的问题（如“帮我测试这个网站”）。而应将大任务分解为AI能逐步处理的子任务。例如，先进行“根据此HTTP响应头分析可能的技术栈”，再进行“针对该技术栈，列出三个常见的高危漏洞”。

原则三：要求结构化输出要求AI以特定格式（如Markdown表格、JSON、YAML）输出结果。这极大方便了后续的自动化处理和人眼阅读。例如：

“请将发现的潜在问题以Markdown表格形式列出，包含以下列：漏洞类型、风险等级、相关URL/参数、简要描述、下一步测试建议。”

原则四：提供示例（Few-Shot Learning）在复杂的任务中，提供一个或多个输入-输出的例子，能极大地引导AI理解你期望的格式和深度。这被称为“少样本学习”。

基于这些原则，一个标准的攻击性AI提示词通常包含以下四个部分，我将它们定义为一个“提示词框架”：

系统指令：定义AI的角色、专业领域和行为准则（如仅输出授权测试内容）。
上下文输入：提供当前任务的具体背景信息，如目标URL、端口扫描结果、一段源代码或HTTP请求/响应数据。
具体任务：清晰、无歧义地描述需要AI执行的操作，通常包含步骤分解。
输出格式：明确规定AI应以何种形式交付结果。

下面，我将通过几个关键场景的实例，来展示如何将这个框架应用于实际。

4. 实战场景一：信息收集与攻击面分析

信息收集是渗透测试的基石。AI在此阶段可以快速处理海量数据，识别关键线索。

4.1 子域名枚举结果分析

假设我们已经使用amass或subfinder等工具获取了一批子域名，并使用了httpx探测到存活和对应的标题。原始数据可能是一个CSV文件，看起来杂乱无章。此时，我们可以让AI进行智能归纳。

提示词示例：分析子域名扫描结果

系统指令：你是一名专注于外部攻击面管理的安全分析师。请分析提供的子域名扫描数据，识别出可能属于同一应用或业务线的资产集群，并标记出看起来像是管理后台、测试环境、API端点或使用了特定敏感技术栈（如`phpMyAdmin`, `Jenkins`, `WordPress`）的资产。 上下文输入： 以下是`httpx`工具的输出摘要（格式：子域名, 状态码, 响应大小, 网页标题）： api.target.com, 200, 1523, “Target API Gateway” staging.target.com, 200, 24560, “Target Staging Environment - Login” admin.target.com, 403, 312, “” test.target.com, 200, 890, “Apache2 Ubuntu Default Page” www.target.com, 200, 45670, “Target Corp - Home” vpn.target.com, 200, 1200, “FortiGate SSL VPN” devops.target.com, 200, 5600, “Jenkins” 具体任务： 1. 对上述资产进行逻辑分组（如：生产前端、后台管理、开发运维、网络基础设施）。 2. 为每个资产评估其暴露面和潜在风险等级（高/中/低），并给出简短理由。 3. 基于你的分析，推荐接下来优先级最高的3个渗透测试方向。 输出格式： 请用Markdown表格呈现你的分析，表格列包括：子域名、分组、风险等级、理由、建议测试方向。

实操与心得：将上述提示词保存为文件subdomain_analysis.txt，然后通过管道传递给gemini-cli：

cat subdomain_analysis.txt | gemini chat > analysis_report.md

打开analysis_report.md，你通常会得到一份结构清晰的风险评估表。AI可能会将staging.target.com和admin.target.com标记为高风险（暴露了预发布环境和疑似管理入口），将vpn.target.com标记为高风险（VPN入口是常见攻击点），并将devops.target.com（Jenkins）标记为高风险（如果配置不当，可能导致RCE）。它可能会建议优先测试staging环境的登录框是否存在弱口令，以及检查Jenkins是否存在未授权访问。

踩坑提醒：AI的判断基于通用模式，并非绝对准确。例如，它可能将admin.target.com返回的403状态码解读为“访问被禁止，但路径存在”，这确实是一个需要关注的信号。但最终是否构成漏洞，仍需人工验证。AI在这里的作用是筛选和排序，将最值得关注的目标推到你的面前，而不是代替你做出最终判断。

4.2 HTTP响应头安全分析

从单个Web应用的响应头中，往往能快速判断其安全配置的成熟度。

提示词示例：快速评估HTTP安全头

系统指令：你是一名Web安全专家，擅长通过HTTP响应头分析应用的安全配置状态。 上下文输入： 以下是目标`https://example.com`的HTTP响应头： HTTP/1.1 200 OK Content-Type: text/html; charset=UTF-8 Server: nginx/1.18.0 X-Powered-By: PHP/7.4.33 X-Frame-Options: DENY Content-Security-Policy: default-src 'self'; Strict-Transport-Security: max-age=31536000; includeSubDomains X-Content-Type-Options: nosniff Referrer-Policy: strict-origin-when-cross-origin 具体任务： 1. 逐一分析每个与安全相关的响应头（`X-Frame-Options`, `CSP`, `HSTS`, `X-Content-Type-Options`, `Referrer-Policy`）的配置是否正确、完整。 2. 指出缺失了哪些推荐的安全头（如`Permissions-Policy`, `X-Permitted-Cross-Domain-Policies`等）。 3. 根据`Server`和`X-Powered-By`字段，推断可能的技术栈，并关联出该技术栈下常见的配置错误或已知漏洞（例如，特定版本的nginx或PHP是否存在公开漏洞）。 输出格式： 请分两部分输出： 第一部分：以列表形式，对每个现有安全头进行评价（配置正确/存在缺陷/缺失关键指令）。 第二部分：提供一段综合性的风险摘要，并给出1-2条具体的加固建议。

实操与心得：这个提示词能让你在几秒钟内获得一份专业的安全头审计初稿。AI会指出CSP虽然存在但仅设置了default-src可能过于宽松，会建议添加script-src等更细化的指令。它也会根据nginx/1.18.0和PHP/7.4.33提醒你这两个版本是否已结束生命周期，存在未修补漏洞的风险。

核心技巧：你可以将此过程与被动扫描工具（如nikto或nuclei）结合。先让工具进行批量扫描，然后将工具输出的“低悬果实”或“信息类”结果（如发现的HTTP头）直接作为上下文喂给AI，让它进行快速解读和优先级排序，这比单纯看工具的报告要高效得多。

5. 实战场景二：漏洞利用与PoC开发辅助

当发现一个潜在的漏洞点时，AI可以帮助你理解漏洞原理，并快速搭建测试环境或编写验证代码。

5.1 根据漏洞描述生成测试用例

在漏洞平台（如CVE、CNVD）上看到一个描述，但缺乏具体的测试细节时，AI可以帮你“翻译”成可操作的步骤。

提示词示例：将CVE描述转化为测试步骤

系统指令：你是一名漏洞研究专家，擅长将抽象的漏洞描述转化为具体的、可操作的渗透测试步骤。 上下文输入： CVE-2023-12345：某知名CMS的v1.2.3版本在`/api/v1/user/profile`接口处存在SQL注入漏洞。攻击者可以通过在`username`参数中注入恶意SQL代码，导致数据库信息泄露。该漏洞源于代码未对用户输入进行充分过滤。 具体任务： 1. 基于上述描述，推断这可能是一个什么类型的SQL注入（报错注入、布尔盲注、时间盲注还是联合查询注入）？为什么？ 2. 为该漏洞设计一个最简单的HTTP请求测试用例（包括方法、路径、参数和Payload），用于验证漏洞是否存在。 3. 如果第一步的简单测试失败，请提供2-3种针对该类型注入的进阶Payload或绕过技巧思路。 4. 假设漏洞存在且可利用，请提供一个安全的、仅用于概念验证的SQL语句示例（例如，查询数据库版本），并解释其作用。 输出格式： 请按以下结构组织答案： - **漏洞类型推断与理由**：（你的分析） - **基础测试请求**： ```http [完整的HTTP请求示例]

进阶测试思路：（列表形式）
PoC示例与解释：（你的Payload和解释）

**实操与心得**： 运行这个提示词，AI可能会推断这是一个基于报错的注入（因为描述直接说“导致信息泄露”），并生成一个包含单引号`'`或`sleep()`函数的测试Payload。它还会建议你尝试使用`||`、`&&`等运算符进行绕过，或者注释掉后续SQL语句。 > **重要警告**：AI生成的Payload**绝不能**未经审查直接用于真实目标。你必须在一个完全可控的、隔离的测试环境（如DVWA、bWAPP）中验证其有效性和无害性。AI可能会生成一些破坏性的语句（如`DROP TABLE`），你必须确保在提示词中或后续过滤中明确禁止此类输出。安全永远是第一位的。 ### 5.2 辅助编写自定义漏洞检测脚本 当你需要将一个复杂的检测逻辑自动化时，AI可以成为一个强大的代码助手。 **提示词示例：编写一个检测特定Header漏洞的Python脚本**

系统指令：你是一名经验丰富的安全开发工程师，擅长编写简洁、健壮的安全测试脚本。

上下文输入：我需要编写一个Python脚本，用于检测目标网站是否错误地配置了X-AspNet-Version或X-Powered-By头部，从而泄露了ASP.NET或PHP的详细版本信息。脚本应从命令行读取一个URL列表文件（每行一个URL），并发起HTTP HEAD请求（以减少流量和加快速度）检查这些头部。如果发现这些头部存在，则记录下目标URL和对应的头部值。同时，脚本应具备简单的超时处理和错误重试机制。

具体任务：

使用requests库和concurrent.futures模块实现并发请求以提高效率。
实现从文件读取URL和将结果写入CSV文件的功能。
添加命令行参数解析，允许用户指定输入文件、输出文件、并发线程数和超时时间。
在代码关键部分添加注释，说明其安全测试用途。

输出格式：请输出完整的Python 3代码。在代码开始前，用几句话说明脚本的设计思路和主要函数的功能。

**实操与心得**： 将AI生成的代码保存为`leaky_header_detector.py`。你几乎会立刻获得一个功能完整、结构清晰的脚本。它通常会包含`argparse`处理命令行参数、`ThreadPoolExecutor`进行并发控制、以及恰当的异常处理。你只需要稍作调整（比如调整User-Agent，添加代理支持），就可以投入使用了。 > **经验之谈**：与AI进行“代码对话”时，要像对待一个初级程序员一样，把需求描述得非常具体。模糊的需求会导致生成无用的代码。例如，与其说“写一个扫描器”，不如说“写一个用HEAD方法检查X-Powered-By头的Python脚本，支持从文件读URL，并发数为10，结果存为CSV”。越具体，输出质量越高。之后，你可以要求AI“为上面的代码添加SOCKS5代理支持”，进行迭代式开发。 ## 6. 实战场景三：报告撰写与成果整理 测试结束后，整理发现并形成报告是一项繁重但必要的工作。AI可以协助完成初稿。 **提示词示例：根据扫描结果生成漏洞报告摘要**

系统指令：你是一名专业的渗透测试报告撰写员，擅长将技术发现转化为清晰、准确、面向不同受众（技术和管理层）的风险描述。

上下文输入： [这里粘贴你的核心发现，例如：

目标https://example.com/login存在SQL注入漏洞，参数id未过滤，可利用' OR '1'='1绕过登录。
目标https://example.com/api/upload存在任意文件上传漏洞，未验证文件类型和内容，可上传Webshell。
整个站点缺失Content-Security-Policy头部，存在XSS风险。
服务器运行着过时的Apache 2.4.49，存在CVE-2021-41773路径遍历漏洞风险。]

具体任务：

为上述每个发现，按照以下结构草拟一份漏洞描述：
- 漏洞标题：简洁明了。
- 风险等级：高/中/低。
- 受影响资产：具体的URL或组件。
- 漏洞描述：技术原理，不超过3句话。
- 复现步骤：一步步的操作，让开发人员能重现。
- 潜在影响：如果被利用，会导致什么后果。
- 修复建议：具体、可操作的建议。
最后，生成一段给项目管理层的“执行摘要”，用非技术语言概括整体安全状况、主要风险和紧迫性。

输出格式：请先输出四个漏洞的详细描述（每个用###标题分隔）。最后输出“执行摘要”部分。

**实操与心得**： 这个提示词能为你节省数小时的重复性文书工作。AI生成的描述通常结构工整、用语专业。然而，**你必须是最终的质量把关人**。必须仔细检查每一个技术细节是否准确，复现步骤是否完整无误，修复建议是否切实可行。AI可能会在“潜在影响”上写得过于笼统或夸张，需要你根据实际情况进行调整和润色。 > **报告撰写的核心**：AI提供的是一个高质量的“毛坯”。你需要注入自己的专业判断：调整风险等级的权重（结合业务重要性）、修正AI可能误解的技术细节、将修复建议与客户的实际技术栈（如他们用的是云WAF还是自研框架）相结合。最终的报告，必须是“人机结合”的产物，其中人的经验和判断占主导地位。 ## 7. 高级技巧与自动化集成 掌握了基础场景后，我们可以将AI提示词深度集成到自动化工作流中，实现“一键式”分析。 ### 7.1 构建本地提示词库与函数封装 将常用的提示词保存为模板文件，并编写Shell函数或Python脚本进行调用。 例如，在`~/.bashrc`或`~/.zshrc`中添加一个函数： ```bash # 定义一个函数，用于快速分析HTTP响应头 analyze_headers() { if [ -z "$1" ]; then echo "Usage: analyze_headers <url>" return 1 fi # 使用curl获取头部，并清理无关信息 HEADERS=$(curl -sI -L "$1" | grep -E "(HTTP/|Server:|X-|Content-Security|Strict-Transport|Referrer-Policy)") # 读取预设的提示词模板，并将获取的头部作为上下文注入 PROMPT_TEMPLATE=$(cat ~/ai_sec_prompts/http_header_analysis.txt) FULL_PROMPT="${PROMPT_TEMPLate//CONTEXT_PLACEHOLDER/$HEADERS}" echo "$FULL_PROMPT" | gemini chat }

然后，你就可以在终端里直接运行analyze_headers https://target.com，瞬间获得一份安全头分析报告。

7.2 与扫描工具联动：处理Nuclei或Nmap结果

你可以编写一个脚本，将nuclei或nmap的JSON格式输出作为输入，让AI进行总结、去重和优先级排序。

思路示例：

运行扫描：nuclei -u https://target.com -json -o nuclei_results.json
编写一个Python脚本，读取nuclei_results.json。
脚本提取出漏洞名称、严重等级、主机等信息，拼接成一段自然的描述性文字。
将这段描述作为上下文，调用一个预设的“漏洞结果分析”提示词，要求AI按风险等级分类，合并同类项，并生成测试建议。
将AI的Markdown输出保存为报告。

这种集成方式，将原始、嘈杂的扫描数据，转化为了易于理解和行动的情报摘要。

8. 常见问题、局限性与避坑指南

在实际使用中，我遇到了不少挑战，也总结出一些必须注意的要点。

8.1 AI的局限性：幻觉、过时与逻辑错误

幻觉：AI可能会“自信地”编造不存在的CVE编号、漏洞细节或工具用法。务必交叉验证。对于任何AI提供的漏洞详情、Payload或命令，都要用权威来源（官方文档、Exploit-DB、GitHub Advisory）进行二次确认。
知识过时：模型的训练数据有截止日期。对于非常新的漏洞（例如过去3-6个月内披露的），AI可能一无所知或信息不全。此时，它给出的建议可能是无效或错误的。
逻辑缺陷：在复杂的多步骤漏洞利用链推理上，AI可能会犯逻辑错误。它擅长模式匹配和代码生成，但不擅长严谨的逻辑论证。

应对策略：将AI定位为“高级搜索引擎”和“初级代码生成器”，而非“漏洞专家”。它的输出永远是“建议草案”，需要由你这个真正的专家来审核、验证和批准。

8.2 安全与合规红线

这是最重要的一条。你必须为AI设定不可逾越的边界。

提示词中明确禁止：在你的系统指令中，必须永久性地包含类似这样的语句：“你生成的所有内容仅用于授权的安全测试、教育研究或在合法合规的实验室环境中进行。严禁生成用于非法入侵、破坏系统、窃取数据或任何违反法律的代码、指令或建议。”
审查输出：即使提示词中有禁令，也要仔细审查AI的每一次输出，确保没有隐含的恶意代码或违反合规的建议。
数据隐私：切勿将真实的、敏感的客户数据（如数据库转储、个人身份信息）作为上下文发送给第三方AI API。如果需要分析此类数据，应使用本地部署的开源模型。

8.3 成本与效率平衡

频繁调用API会产生费用。为了优化：

本地缓存：对于常见的、通用的分析（如HTTP头分析），可以建立本地知识库或缓存AI的回复，避免重复询问相同问题。
提炼上下文：在发送给AI前，先用人脑或简单脚本对原始数据（如巨大的Nmap扫描结果）进行预处理，提取最关键的信息（如开放的非常见端口、服务的banner信息），而不是一股脑全塞进去。这能减少Token消耗，提高回答质量。
选择合适的模型：对于代码生成任务，性能强大的模型（如Gemini Pro）效果更好。对于简单的文本总结，或许更轻量的模型就足够了。了解不同模型的定价和能力，按需选择。

将AI融入渗透测试工作流，不是一个“替换”的过程，而是一个“增强”的过程。它无法替代你对漏洞原理的深刻理解、对攻击手法的创造性思维以及对整个测试流程的全局把控。但它可以成为一个不知疲倦的、知识渊博的助手，帮你处理信息洪流，起草基础代码，整理繁琐文档，让你能更专注于那些真正需要人类智慧和经验的核心挑战上。这套提示词库和与之配套的工作方法，就是我试图在这两者之间找到的最佳平衡点。