news 2026/4/16 10:20:56

Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务

Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务

最近,智谱AI开源的AutoGLM-Phone框架在开发者圈子里引起了不小的讨论。它号称能让AI像真人一样操作手机,完成从“打开美团”到“搜索火锅店”这样一连串的任务。听起来很酷,但实际效果到底怎么样?会不会很复杂?今天,我就带大家亲手实测一下,看看这个AI手机助理到底有多“智能”。

1. 什么是Open-AutoGLM-Phone?

简单来说,Open-AutoGLM-Phone是一个能“看懂”手机屏幕并“动手”操作的AI框架。它和我们熟悉的ChatGPT这类纯聊天机器人完全不同。

你可以把它想象成一个坐在你手机里的“虚拟手指”和“虚拟眼睛”:

  • 虚拟眼睛(看懂屏幕):它能通过截图,理解屏幕上显示的是什么(比如这是美团首页,那个是搜索框)。
  • 虚拟手指(执行操作):它能通过ADB(安卓调试桥)发送指令,模拟点击、滑动、输入文字等操作。
  • 大脑(规划任务):你只需要用大白话说“帮我用美团搜一下附近的火锅店”,它就能自己拆解任务:先解锁手机→找到美团图标→点击打开→找到搜索框→输入“火锅店”→点击搜索→浏览结果。

它的核心价值在于,把复杂的多步骤操作,简化成一句自然语言指令。这对于自动化测试、无障碍辅助或者单纯想“偷懒”的用户来说,潜力巨大。

2. 实测环境搭建:手把手带你连接AI与手机

要让AI控制你的手机,需要搭建一个“桥梁”。这个桥梁一端连着云端或本地的AI模型(大脑),另一端连着你的安卓手机(身体)。我们分两步走:准备手机端,再准备控制端。

2.1 第一步:让你的手机“准备好被控制”

首先,你需要一部安卓手机(系统7.0以上)或者一个安卓模拟器。这里我为了演示方便,使用了Android Studio自带的模拟器。

关键操作有三步,缺一不可:

  1. 开启“开发者模式”

    • 在手机的“设置”里,找到“关于手机”或“系统信息”。
    • 连续点击“版本号”7-10次,直到出现“您已处于开发者模式”的提示。
  2. 开启“USB调试”

    • 返回设置,现在你应该能看到新出现的“开发者选项”。
    • 进入后,找到并开启“USB调试”。这个选项允许电脑通过ADB向手机发送指令。
  3. 安装并启用“ADB键盘”

    • 这是关键一步!AI需要通过这个特殊的输入法来向App里输入文字。
    • 下载ADBKeyboard.apk并安装到手机。
    • 在“设置”->“系统”->“语言与输入法”->“虚拟键盘”中,将“默认键盘”切换为“ADB Keyboard”

验证连接:用USB线连接手机和电脑,打开电脑的命令行(CMD或终端),输入:

adb devices

如果看到一串设备ID后面跟着device字样,恭喜你,第一步成功了!

2.2 第二步:在电脑上部署控制中心(Open-AutoGLM)

现在,我们来配置指挥AI的“控制中心”。确保你的电脑已安装Python(3.10或以上版本)。

打开命令行,依次执行以下命令:

# 1. 下载智谱官方的开源代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装项目所需的所有Python工具包 pip install -r requirements.txt # 3. 以“可编辑”模式安装,方便后续自己修改代码 pip install -e .

这几行命令会帮你把AI控制程序“请”到电脑上。安装过程可能会花几分钟,取决于你的网速。

3. 实战演练:让AI自动搜索美团火锅店

环境准备好了,激动人心的时刻到了:给AI下命令!这里有两种主流的模型调用方式,我推荐第一种,对新手更友好。

3.1 方案一:使用智谱官方API(最简单,推荐新手)

这种方式无需自己部署复杂的AI模型,直接使用智谱AI提供的云端服务。

  1. 获取通行证(API Key)

    • 访问智谱AI开放平台官网,注册并登录。
    • 在控制台页面,创建一个新的API Key,并妥善保存。
  2. 下达指令: 在刚才的Open-AutoGLM项目目录下,打开命令行,输入以下命令(请替换你的真实API Key):

    python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的-API-Key-粘贴在这里" \ "打开美团,搜索附近的火锅店,并按评分排序"

发生了什么?当你按下回车,神奇的事情开始了:

  1. AI首先会“看到”你的手机锁屏界面,然后执行“向上滑动解锁”操作。
  2. 解锁后,它开始“环顾”桌面,寻找“美团”的图标。找到后,点击打开。
  3. 进入美团后,它会识别出顶部的搜索框,点击,然后通过ADB键盘输入“火锅店”。
  4. 搜索完成后,它可能会尝试寻找“排序”筛选按钮,并点击“评分最高”。
  5. 任务完成!你的手机上已经展示出了评分最高的火锅店列表。

整个过程完全自动,你只需要泡杯茶看着就行。

3.2 方案二:本地部署模型(更自由,适合进阶)

如果你担心数据隐私,或者想深入研究,可以选择在本地或自己的云服务器上部署模型。这需要一台性能不错的、带GPU的Linux服务器。

核心步骤是使用vLLM这类工具来启动模型服务:

# 在服务器上启动AI模型服务 python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/autoglm-phone-9b \ --served-model-name autoglm-phone-9b \ --max-model-len 8192 \ --gpu-memory-utilization 0.9

然后在你的电脑上,将命令中的--base-url指向你自己的服务器地址:

python main.py \ --device-id 你的设备ID \ --base-url http://你的服务器IP:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团搜索火锅店"

4. 实测效果与深度体验

我让AI执行了“美团搜火锅店”这个任务,并观察了整个过程。以下是真实的体验报告:

令人惊喜的亮点:

  • 理解能力不错:它能准确识别美团App的图标、搜索框、按钮等常见UI元素。
  • 规划逻辑清晰:任务拆解步骤符合人类直觉:解锁→找App→打开→搜索。
  • 自动化程度高:从开始到出结果,中间无需任何人工干预。

遇到的实际挑战与解决思路:

在测试中,我也遇到了一些“翻车”瞬间,这恰恰是深入理解它的好机会:

  1. 找不到App怎么办?如果手机桌面上没有美团,AI会陷入“疯狂找图标”的循环。解决方案:可以在代码中为PhoneAgent类增加一个简单的超时或失败计数逻辑,超过一定次数后自动停止,避免浪费资源。

    # 示例:在agent.py的run方法中增加保护逻辑 max_fail_attempts = 5 fail_count = 0 while not task_finished and fail_count < max_fail_attempts: # ... AI执行步骤 ... if action_failed: fail_count += 1
  2. 卡在登录页面怎么办?如果美团需要登录,AI目前可能会卡住。框架设计了人工接管机制,此时它会暂停并提示用户手动操作,完成后AI再继续。

  3. 操作不够精准怎么办?有时点击的位置会略有偏差。这可以通过优化屏幕截图的分辨率微调模型的视觉理解能力来改善。

它最适合做什么?

  • 自动化重复任务:每天打开某个App签到、批量执行某些固定操作。
  • 无障碍辅助:为视障或行动不便的用户提供语音控制手机的能力。
  • 应用测试:自动遍历测试App的各个功能点。

5. 总结:这是未来人机交互的惊鸿一瞥

实测完Open-AutoGLM-Phone,我的感受是复杂的。它绝不是一个完美的产品,在复杂场景、非常规UI面前还会犯错。但它的方向和展示的可能性,令人无比兴奋

我们正在从“告诉AI是什么”(ChatGPT)的时代,走向“让AI去做什么”(Agent)的时代。这个框架就像给大模型装上了“眼睛”和“手”,虽然现在这套“感官”和“肢体”还略显笨拙,但第一步已经迈出。

对于开发者而言,这是一个绝佳的学习和实验平台。你可以看到多模态理解、任务规划、工具调用这些前沿技术如何在一个具体项目中落地。对于普通用户,它则预告了一个未来:或许不久后,我们真的可以用一句话,就让AI帮我们处理好手机上所有繁琐的操作。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:16:24

解密QPS、TPS、RPS与吞吐量:性能测试中的核心指标解析

1. 性能测试中的四大金刚&#xff1a;QPS、TPS、RPS与吞吐量 第一次接触性能测试时&#xff0c;我被各种英文缩写搞得晕头转向。记得有次在项目会议上&#xff0c;开发组长说"这个接口QPS要撑到5000"&#xff0c;测试同事立刻反驳"不对&#xff0c;应该看TPS才…

作者头像 李华
网站建设 2026/4/16 10:12:46

Phi-3-mini-4k-instruct与Typora文档写作辅助

Phi-3-mini-4k-instruct与Typora文档写作辅助 作为一名长期与技术文档打交道的工程师&#xff0c;我深知写作过程中的痛点&#xff1a;思路卡顿、格式调整繁琐、内容组织困难。今天分享一个实用的组合方案——用Phi-3-mini-4k-instruct模型增强Typora的文档写作体验。 这个组…

作者头像 李华
网站建设 2026/4/16 10:10:05

BlenderKit插件:5个简单步骤彻底改变你的3D创作流程

BlenderKit插件&#xff1a;5个简单步骤彻底改变你的3D创作流程 【免费下载链接】BlenderKit Official BlenderKit add-on for Blender 3D. Documentation: https://github.com/BlenderKit/blenderkit/wiki 项目地址: https://gitcode.com/gh_mirrors/bl/BlenderKit 还在…

作者头像 李华
网站建设 2026/4/16 10:09:57

BetterNCM-Installer:快速上手网易云音乐插件管理器的完整指南

BetterNCM-Installer&#xff1a;快速上手网易云音乐插件管理器的完整指南 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 你是否想要为网易云音乐PC版添加更多实用功能&#xff1f;Be…

作者头像 李华