news 2026/7/1 20:32:49

能控制计算机桌面的多模态AI agent框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
能控制计算机桌面的多模态AI agent框架

随着llm的能力越来越强,基于LLM的多模态AI agent框架和桌面工具越来越接近实用。

这里收集这些开源的ai agent框架和桌面助手工具。

pyautogui

pyautogui是一个能够模拟鼠标、键盘等输入操作的 Python 库,可以轻松实现自动化操作。

https://zhuanlan.zhihu.com/p/23356032557

NeoAI

NeoAI无需编写代码,让 AI 用简单的自然语言指令接管你的电脑,支持文件管理、任务自动化、定时操作和跨平台设备控制,并内置安全保护。

https://github.com/TheD0ubleC/NeoAI

OmniParser-V2

通过一句话让DeepSeek LLM控制电脑的框架。

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

https://github.com/microsoft/OmniParser/tree/master

PC-Agent/MobileAgent

一种能使用LLM控制桌面工作的开源工具。

https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

https://github.com/X-PLUG/MobileAgent/tree/main

OpenCUA/CUA

一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

https://arxiv.org/abs/2508.09123

https://github.com/trycua/cua

https://github.com/xlang-ai/OpenCUA

https://zhuanlan.zhihu.com/p/1890889365196109726

Cradle

Cradle 是BAAI‑Agents开源的一款面向通用计算机控制(GCC)的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。

  • 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)

  • 多模态输入:以截图为输入,支持键盘鼠标操作输出

  • 自主能力:内置“认知反思+技能更新”模块,能不断自我优化

  • 模块化设计:兼顾高可控性和扩展性,轻松适配新环境

https://github.com/BAAI-Agents/Cradle

NeuralAgent

NeuralAgent​ 是一款革命性的桌面AI助手,真正能够在用户桌面上执行操作。

与传统AI对话系统不同,NeuralAgent能够实际控制鼠标、键盘,操作浏览器,填写表单,发送邮件,真正实现"思考即执行"的智能化体验。

https://github.com/mosdehcom/neuralagent

Open-Interpreter

Open-Interpreter是可以联网的 ChatGPT 代码解释器。

https://github.com/OpenInterpreter/open-interpreter

refernece

---

使用Python实现鼠标与键盘自动化操作:从基础到实战应用

https://zhuanlan.zhihu.com/p/23356032557

Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?

https://www.cnblogs.com/xiaohuatongxueai/p/19017467

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

https://zhuanlan.zhihu.com/p/1939274895700784967

Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公

https://zhuanlan.zhihu.com/p/1890889365196109726

OmniParser V2: Turning Any LLM into a Computer Use Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 12:43:30

43、深入了解 Dash 和 Zsh 脚本编程

深入了解 Dash 和 Zsh 脚本编程 在 shell 脚本编程的世界里,不同的 shell 有着各自独特的特性和功能。Dash 和 Zsh 就是其中比较有代表性的两种,下面我们就来详细了解一下它们的脚本编程相关知识。 Dash 脚本编程 在使用 Dash shell 时,需要注意它并不能识别 Bash shell …

作者头像 李华
网站建设 2026/6/30 20:49:24

46、Linux系统磁盘空间监控与MySQL数据库操作指南

Linux系统磁盘空间监控与MySQL数据库操作指南 1. 多用户Linux系统的磁盘空间问题 多用户Linux系统面临的一大难题是可用磁盘空间的管理。在某些场景下,比如文件共享服务器,一个粗心的用户就可能迅速耗尽磁盘空间。 对于生产环境的Linux系统,不能仅仅依赖磁盘空间报告来防…

作者头像 李华
网站建设 2026/7/1 14:49:52

精准测试探索

一、背景 什么是精准测试?通常研发提测的需求有代码变更,针对研发的代码变更点以及关联点进行测试,我们称之为精准测试。 很多时候,对变更点、影响范围的评估并不是很准确,偶尔会出现影响范围评估不全或者影响范围评…

作者头像 李华
网站建设 2026/7/1 16:00:51

改进的双锁相环阻抗重塑控制策略:提升动态功率限制,保持稳定性

改进的双锁相环阻抗重塑控制策略 复现一篇IEEE上英文文献 创新点:阻抗重塑 双锁相环 另有一份中文版报告(与模型完全对应) 采用改进的双锁相环阻抗重塑控制策略,不仅能保留较快的动态响应,还能极大地提升动态功率限制&…

作者头像 李华
网站建设 2026/7/1 16:13:13

Android自动化终极解决方案:ADBKeyBoard效率翻倍指南

你是不是也遇到过这样的尴尬场景:精心设计的自动化测试脚本,一到中文输入环节就"无法正常工作"?别担心,ADBKeyBoard就是为这个问题而生的终极解决方案。这个强大的虚拟键盘工具让Android自动化测试中的Unicode字符输入变…

作者头像 李华
网站建设 2026/7/1 11:49:36

医疗软件合规性测试体系构建与实战解析

面向测试从业者的全流程合规保障方案 一、行业背景与合规必要性 随着FDA、NMPA等全球监管机构对医疗数字化要求的升级,合规性测试已成为医疗软件生命周期中的核心环节。根据2025年最新发布的《医疗器械软件审查指南》,涉及诊断、治疗、健康管理的软件均…

作者头像 李华