AI Agent Harness Engineering 与机器人流程自动化:RPA 2.0 时代的核心竞争力
一、引言(Introduction)
1.1 钩子:从“流水线工人的噩梦”到“数字劳动力的指挥官”
你是否见过一家传统制造业的ERP审批专员的一天吗?让我们先构建一个真实感极强的、哪怕是虚构但在现实中每天都在全球各地数百万办公室发生数万次的数字场景:
北京朝阳区某跨国快消品巨头亚太区总部23层的供应链审批工位上,戴着黑框眼镜、每天咖啡杯上印着“Ctrl+C/Ctrl+V使我快乐又秃头”的张小明,早上8点15分准时坐到工位。他的第一项任务不是打开邮件客户端Outlook(是的,这是集团的规定,哪怕公司内部有Teams聊非结构化沟通优先,但涉及亚太区各国的供应商邮件必须保留纸质转PDF扫描件的邮件还是得从Outlook拖出来——邮件系统的API接口权限只开放给新加坡总部的IT技术架构组,各国的业务岗连邮件附件批量下载的插件都装不了——哦不对,是IT部门2021年上线过一个叫“亚太区供应商自动整理员1.0”的RPA机器人?但那个机器人去年年底就“躺平了。为什么躺平?张小明喝了一口冰美式,苦涩地笑了笑:上个月东南亚区新增了三个泰国、马来西亚、印度尼西亚的供应商,他们的PDF采购申请格式跟大陆、新加坡完全不一样——原来大陆是宋体四号加粗的“XX集团供应商采购申请”、原来马来西亚是英文Times New Roman 12号斜体带阿拉伯数字序号开头的“Purchase Request For Approval”、原来泰国是泰文英文混排连页眉页脚都印着当地宗教元素的——哦那个东南亚采购申请、原来印度尼西亚有时候干脆连PDF都是手写体转的——对,印度尼西亚的供应商老板有时候会直接手写一张纸签上自己的印尼语签名,旁边再盖一个歪歪扭扭的木质印章,然后让财务就扫描成PDF直接发过来。
那个2021年的RPA1.0机器人是怎么做的?它依赖于**“像素匹配”或者“固定模板OCR预定义字段位置”——对,当时IT部门跟大陆、新加坡的供应商定了三个固定的OCR模板,每个模板上的“供应商名称”、“采购金额(人民币/美元/新加坡元?哦新加坡元那个版本的机器人躺得更早,因为汇率波动大的时候,有时候供应商会直接在PDF里手写备注汇率换算说明,机器人的像素匹配就炸了,备注把备注框框住了本来应该是“供应商名称的位置——对,备注框有时候不小心挪动了0.5厘米,机器人就像个突然失明的流水线工人,要么抓取不到任何数据,要么把备注里的“今日汇率1:7.2345”当成了“供应商名称”,要么把供应商名称里的“XX有限公司(泰国分公司)”当成了“采购金额”,要么直接报错说“金额格式错误,请联系IT部门”——IT部门那段时间每天要处理200多封张小明们的邮件,后来干脆停掉了所有非大陆非新加坡非越南(哦越南那时候模板只做了越南纯英文不带宗教元素的)的机器人工作流。
现在张小明怎么办?他每天早上8点15分到下午5点半,除了中午1小时的午餐时间和上厕所的15分钟,其他时间几乎全在做三件事:
- **打开Outlook的“亚太区非大陆非新加坡非越南纯英文不带宗教”文件夹”——哦文件夹的名字越来越长,Outlook的收件箱规则已经被他建了30多个——打开文件夹,拖出每一封符合要求但又不符合1.0机器人能处理的PDF;
- **Ctrl+C、Ctrl+V,把供应商名称、采购金额(还要手动换算成集团统一的美元,查当天中国人民银行公布的中间价或者集团亚太区财务中心早上7点半发的Teams群通知里的汇率)、采购日期、采购物品清单、供应商老板的签名确认、歪歪扭扭的木质印章识别(哦他还要用手机上的翻译软件把泰文印尼文的签名或者备注翻译成英文,再用PS软件里的印章检测工具看印章是不是真的——集团有一个印章库,但那个印章库的API接口权限也只开放给新加坡总部,张小明只能截图下来用肉眼比对——比对东南亚区有5万多个供应商印章,他有时候眼睛都看花了)、印尼手写签名比对?哦手写签名比对的API接口权限也只开放给新加坡总部,张小明只能截图下来用手机上的某个收费的手写签名比对APP——哦APP的名字叫“签名大师Pro”,这个APP是他自己掏腰包花了99块钱一年订阅的,因为IT部门不让装盗版软件,他说公司财务不给报销这个APP的费用,说这是“业务岗的“个人办公技能需求”——哦业务岗的个人办公技能需求是什么?就是Ctrl+C/Ctrl+V加上肉眼识别歪歪扭扭的木质印章和手写签名对吧?
- **把这些数据手动复制粘贴到集团统一的SAP ERP系统里——SAP ERP系统的界面也是固定的像素匹配吗?不,SAP ERP系统的界面有时候会因为集团总部的IT技术架构组每周一凌晨3点的自动更新——自动更新有时候会把采购申请提交的按钮从右上角移动到右下角,或者把“供应商名称”的输入框从左边移动到右边——张小明上个月月底因为更新后不小心把供应商名称输入到了“采购金额”的输入框里,提交了一个采购金额是“XX有限公司(泰国曼谷分公司)”的采购申请,导致财务总监在亚太区周会上点名批评了供应链审批组,说他们“工作态度极其不认真”——张小明那段时间差点被开除。
这就是“流水线工人的噩梦”——哦不对,这是“数字流水线工人的噩梦”。这些工作单调、重复、枯燥、没有任何创造性、没有任何成就感、还容易出错、出错了还要背锅、背锅了还要被开除、背锅了还要自己掏腰包买各种API接口权限不给开放的办公工具——这些工具本来应该是由数字劳动力来做的,对吧?
那什么是“数字劳动力的指挥官”?
哦我们再构建一个同样是这家跨国快消品巨头亚太区总部23层的供应链审批工位的场景,但这个场景是在2025年——也就是2年之后——哦不用2年之后,其实现在已经有一些先锋企业在这样做了:
同样的,北京朝阳区某跨国快消品巨头亚太区总部23层的供应链审批工位上,戴着同款黑框眼镜、同款咖啡杯但咖啡杯上印着“数字劳动力指挥官使我秃头但也使我快乐”的张小明,早上8点15分准时坐到工位。他的第一项任务不是打开Outlook,不是打开Teams,不是打开SAP ERP系统,不是打开“签名大师Pro”——哦他甚至不用打开手机——他只需要打开一个叫“亚太区数字劳动力管理中心”的Web应用——这个Web应用是集团总部的AI技术架构组2023年上线的——然后他看到的界面上有一个叫“张小明专属的数字助理小明一号”——哦这个数字助理是由AI Agent Harness Engineering(也就是我们今天要讲的第一个核心概念,中文翻译为“AI代理编排工程”——后面我们会详细解释什么是AI Agent Harness Engineering)平台自动为他定制的——然后界面上显示的是:
数字助理小明一号今日工作简报(8:00-8:15已自动完成)
- Outlook收件箱自动扫描与分类整理
- 自动扫描了亚太区23个国家和地区的2178封供应商邮件
- 自动分类整理到了37个新建的或现有的符合AI模型自动学习到的文件夹
- PDF采购申请自动处理
- 自动处理了1892封符合要求的PDF采购申请
- 自动识别了所有的PDF格式——不管是固定模板的,不管是模板变动0.5厘米的,不管是英文泰文印尼文混排的,不管是手写体转PDF的,不管是备注框框住了备注或者供应商名称的,不管是页眉页脚印着当地宗教元素的——哦备注框框住了供应商名称没关系,小明一号用的是多模态大语言模型(Multimodal Large Language Model,简称MLLM,后面我们会详细解释)+ 微调后的文档理解模型(Document Understanding Model,简称DUM,后面我们会详细解释)+ 模板自动发现与自动更新模型(Template Discovery & Auto-Updating Model,后面我们会详细解释)——哦备注框框住了供应商名称也没关系,小明一号用的是语义理解(Semantic Understanding)而不是像素匹配或者固定模板OCR预定义字段位置——语义理解懂中文懂英文懂泰文懂印尼文懂37种语言对吧?
- 自动抓取了所有的字段——不管是供应商名称、采购金额、采购日期、采购物品清单、备注、汇率换算说明——哦汇率换算说明小明一号还会自动查询当天中国人民银行公布的中间价或者集团亚太区财务中心早上7点半发的Teams群通知里的汇率——哦Teams群通知里的汇率有时候是用表格的,有时候是用图片的,有时候是用语音的——没关系,小明一号用的是多模态大语言模型——哦语音的也能自动转成文字对吧?
- 自动识别了所有的供应商老板的手写签名和歪歪扭扭的木质印章——哦手写签名比对和木质印章比对的API接口权限现在开放给了数字助理小明一号——小明一号自动调用了新加坡总部的印章库API接口和手写签名库API接口——哦准确率是99.999%对吧?
- 自动把这些数据填充到了集团统一的SAP ERP系统里——哦SAP ERP系统的界面自动更新了没关系,小明一号用的是UI自动化引擎(UI Automation Engine)+ 计算机视觉大语言模型(Computer Vision Large Language Model,简称CV-LLM,后面我们会详细解释)+ 流程自动学习与自动修复模型(Process Mining & Auto-Repair Model,后面我们会详细解释)——哦UI自动化引擎懂怎么操作SAP ERP系统不管界面怎么变动对吧?
- 异常处理与预警
- 自动检测到了286封异常的PDF采购申请
- 自动把这些异常的PDF采购申请分类整理到了“张小明专属异常处理文件夹”
- 自动给每一封异常的PDF采购申请加上了异常原因标签——比如“印章比对失败,相似度只有45%”、“手写签名比对失败,相似度只有30%”、“采购金额超过了100万美元,需要手动审批”、“采购物品清单里的某个物品不在集团的供应商准入清单里”——哦集团的供应商准入清单API接口权限现在也开放给了数字助理小明一号
- 自动给张小明发了一条Teams群通知——哦是私人Teams群通知,不是群聊
- 自动给每一封异常的PDF采购申请准备了一份“异常处理建议文档”——比如“建议供应商重新扫描一份更清晰的印章和手写签名的PDF”、“建议联系供应商准入组确认这个物品的供应商是否在准入清单里”
然后张小明喝了一口热拿铁——哦现在他终于不用喝冰美式了,因为他现在有时间泡一杯热拿铁了——然后他只需要处理那286封异常的PDF采购申请——哦286封看起来很多,但其实每一封都有异常处理建议文档,他只需要点击一下“同意”或者“不同意”或者“联系供应商准入组”或者“联系供应商重新扫描”——哦“联系供应商准入组”或者“联系供应商重新扫描”他也不用自己写邮件或者发Teams群通知,他只需要点击一下按钮,数字助理小明一号就会自动写好邮件或者发好Teams群通知——哦邮件或者Teams群通知的内容也是由多模态大语言模型自动生成的,懂中文懂英文懂泰文懂印尼文懂37种语言对吧?
然后张小明处理完这286封异常的PDF采购申请之后,他只需要花1小时的时间做“高级数据分析”——哦他现在终于有时间做高级数据分析了,因为他现在是“数字劳动力的指挥官”了——比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购趋势,比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购金额波动,比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购物品清单,然后给供应链总监写一份“东南亚区新增供应商采购趋势分析报告”——哦这份报告也是由多模态大语言模型自动生成的,张小明只需要修改一下几个关键数据和几个关键结论就行。
然后下午3点半,张小明就可以下班了——哦不是,是提前下班去接孩子放学——哦集团现在已经实行了“弹性工作制”,因为供应链审批组的工作效率提高了1000%以上——哦原来张小明每天只能处理200封左右的PDF采购申请,现在数字助理小明一号每天能处理20000封左右的PDF采购申请——哦工作效率提高了100倍对吧?哦原来供应链审批组有30多个人,现在供应链审批组只有3个人——哦其他27个人都转岗到了“高级数据分析岗”、“供应商关系管理岗”、“数字劳动力训练师岗”——哦“数字劳动力训练师岗”就是负责训练AI Agent的,对吧?
这就是“数字劳动力的指挥官”。这就是RPA 2.0时代。这就是AI Agent Harness Engineering与机器人流程自动化结合起来产生的核心竞争力。
1.2 定义问题/阐述背景:从RPA 1.0的“瓶颈与困境”到RPA 2.0的“机遇与挑战”
1.2.1 什么是RPA?RPA 1.0是什么?RPA 1.0的核心特征是什么?
在讲RPA 2.0之前,我们必须先明确什么是RPA,什么是RPA 1.0。
核心概念:RPA(Robotic Process Automation,机器人流程自动化)——哦这个概念最早可以追溯到20世纪90年代末到21世纪初,当时出现了一些“屏幕抓取(Screen Scraping)工具,比如Citrix、Microsoft Macro Express Pro、Blue Prism的早期版本——但真正意义上的RPA 1.0商业化是在2015年左右,当时出现了一批商业化的RPA平台,比如Blue Prism、UiPath、Automation Anywhere——这三个平台被称为RPA领域的“三巨头(Big Three)”。
RPA 1.0的核心定义(来自Gartner 2018年的技术成熟度曲线报告):RPA是一种通过“软件机器人(Software Bots,也称为数字劳动力)”来模拟人类员工与计算机系统的用户界面(User Interface,简称UI)进行交互的技术,它可以自动执行一些结构化、重复性、高频率、低风险、规则明确、不需要人类创造力、不需要人类判断力、不需要人类语义理解、不需要人类异常处理能力的业务流程,比如数据录入、数据核对、数据迁移、发票处理、工资单处理、邮件分类整理、财务报表生成、银行对账、客户信息更新、订单处理、库存管理、等等。
RPA 1.0的核心特征:
- 结构化数据依赖(Structured Data Dependency):RPA 1.0只能处理**结构化数据(Structured Data)——也就是存储在关系型数据库(比如MySQL、Oracle、SQL Server)里的、有明确的字段定义、有明确的数据格式、有明确的数据类型、有明确的数据长度、有明确的数据关系的数据,或者是存储在Excel表格、CSV文件里的、有明确的表头、有明确的列定义、有明确的行定义的数据——哦Excel表格有时候如果表头变动了,或者列变动了,或者行变动了,RPA 1.0就会“躺平”。
- 固定UI依赖(Fixed UI Dependency):RPA 1.0只能操作**固定的UI界面(Fixed UI Interface)——也就是UI界面的按钮位置、输入框位置、下拉菜单位置、窗口大小、窗口标题、窗口图标、等等都是固定不变的——哦UI界面如果因为系统自动更新、因为浏览器版本更新、因为屏幕分辨率变化、因为窗口缩放、等等发生了哪怕是0.1厘米的变动,RPA 1.0就会“躺平”。
- 固定规则依赖(Fixed Rules Dependency):RPA 1.0只能执行**固定的业务规则(Fixed Business Rules)——也就是业务规则是明确的、可编码的、没有任何弹性的、没有任何例外情况的、没有任何模糊不清的情况的——哦业务规则如果发生了哪怕是一点点的变动,比如采购金额的审批阈值从100万美元变成了99万美元,RPA 1.0就需要IT技术架构组重新开发或者重新修改机器人的工作流——哦重新开发或者重新修改机器人的工作流需要花费几天甚至几周的时间,对吧?
- 无语义理解能力(No Semantic Understanding Capability):RPA 1.0没有任何**语义理解能力(Semantic Understanding Capability)——也就是它不懂中文不懂英文不懂泰文不懂印尼文不懂任何语言,它只会“看到”像素,它只会“执行”命令,它不会“理解”内容,它不会“思考”问题,它不会“判断”对错,它不会“处理”异常。
- 高维护成本(High Maintenance Cost):RPA 1.0的维护成本非常高——根据McKinsey 2020年的一份报告,RPA 1.0的维护成本通常是初始开发成本的3-5倍,有些企业甚至更高,因为RPA 1.0机器人很容易“躺平”,对吧?哦McKinsey 2020年的另一份报告显示,只有不到30%的企业实现了RPA 1.0的预期投资回报率(Return on Investment,简称ROI),超过70%的企业的RPA 1.0机器人“躺平”率超过了50%,有些企业甚至高达90%。
- 有限的可扩展性(Limited Scalability):RPA 1.0的可扩展性非常有限——你很难让一个RPA 1.0机器人同时处理多个不同的业务流程,你很难让多个RPA 1.0机器人之间进行协作,你很难让RPA 1.0机器人与其他的系统或者其他的机器人进行集成——哦因为RPA 1.0机器人之间没有“语言”,它们之间没有“沟通”,它们之间没有“协作”,它们都是“孤独的数字流水线工人”。
1.2.2 RPA 1.0的瓶颈与困境是什么?
哦我们刚才在钩子部分已经举了一个张小明的例子,现在我们再系统地梳理一下RPA 1.0的瓶颈与困境:
**RPA 1.0的瓶颈与困境主要体现在以下几个方面:
- 数据类型的瓶颈与困境:现在的企业里,**非结构化数据(Unstructured Data)占了企业数据总量的80%以上——根据IDC 2023年的一份报告,到2025年,全球数据总量将达到175ZB,其中非结构化数据将占90%以上——非结构化数据是什么?非结构化数据就是没有明确的字段定义、没有明确的数据格式、没有明确的数据类型、没有明确的数据长度、没有明确的数据关系的数据,比如邮件、PDF文档、Word文档、PPT文档、图片、视频、音频、社交媒体帖子、等等——哦RPA 1.0只能处理20%不到的结构化数据,那剩下的80%以上的非结构化数据怎么办?哦剩下的80%以上的非结构化数据只能由人类员工来处理,对吧?
- 业务流程的瓶颈与困境:现在的企业里,半结构化业务流程(Semi-Structured Business Process)或者无结构化业务流程(Unstructured Business Process)占了企业业务流程总量的70%以上——半结构化业务流程是什么?半结构化业务流程就是业务流程有一部分是结构化的、规则明确的,有一部分是非结构化的、规则不明确的、需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——比如供应链审批、客服工单处理、法律合同审查、人力资源招聘、等等——哦RPA 1.0只能处理30%不到的结构化业务流程,那剩下的70%以上的半结构化业务流程或者无结构化业务流程怎么办?哦剩下的70%以上的半结构化业务流程或者无结构化业务流程只能由人类员工来处理,对吧?
- 维护成本的瓶颈与困境:刚才我们已经说了,McKinsey 2020年的一份报告显示,RPA 1.0的维护成本通常是初始开发成本的3-5倍,有些企业甚至更高——哦为什么维护成本这么高?因为RPA 1.0机器人很容易“躺平”,对吧?哦RPA 1.0机器人“躺平”的原因有很多:数据类型变化了、UI界面变化了、业务规则变化了、等等——哦每一次变化都需要IT技术架构组重新开发或者重新修改机器人的工作流——哦重新开发或者重新修改机器人的工作流需要花费几天甚至几周的时间,需要花费大量的人力物力财力,对吧?
- 投资回报率的瓶颈与困境:刚才我们也说了,McKinsey 2020年的另一份报告显示,只有不到30%的企业实现了RPA 1.0的预期投资回报率(ROI),超过70%的企业的RPA 1.0机器人“躺平”率超过了50%,有些企业甚至高达90%——哦为什么投资回报率这么低?因为RPA 1.0的维护成本太高了,对吧?因为RPA 1.0只能处理20%不到的结构化数据和30%不到的结构化业务流程,对吧?因为RPA 1.0的可扩展性非常有限,对吧?
- 人才的瓶颈与困境:RPA 1.0的开发和维护需要专业的RPA开发工程师(Professional RPA Developer)——哦专业的RPA开发工程师的薪资非常高——根据Glassdoor 2024年的一份报告,美国的专业RPA开发工程师的平均年薪是12万美元左右,中国的专业RPA开发工程师的平均年薪是30万元人民币左右——哦不仅薪资高,而且专业的RPA开发工程师的数量非常少——因为专业的RPA开发工程师需要掌握的技能非常多:比如需要掌握RPA平台的使用、比如需要掌握UI自动化的使用、比如需要掌握结构化数据处理的使用、比如需要掌握简单的编程(比如Python、JavaScript、C#)、比如需要掌握业务流程分析的使用、等等——哦很多企业找不到足够的专业的RPA开发工程师,对吧?
- 安全性的瓶颈与困境:RPA 1.0的安全性也是一个很大的问题——哦RPA 1.0机器人需要访问企业的各种敏感系统,比如SAP ERP系统、Oracle财务系统、Salesforce客户关系管理系统、等等——哦RPA 1.0机器人通常需要使用硬编码的API密钥(Hard-Coded API Keys)或者硬编码的用户名和密码(Hard-Coded Usernames and Passwords)——哦硬编码的API密钥或者硬编码的用户名和密码很容易被泄露,对吧?哦RPA 1.0机器人的操作日志也很容易被篡改,对吧?哦RPA 1.0机器人的行为也很难被监控,对吧?哦很多企业因为RPA 1.0的安全性问题而不敢大规模地使用RPA 1.0,对吧?
1.2.3 什么是RPA 2.0?RPA 2.0的核心特征是什么?RPA 2.0与RPA 1.0的区别是什么?
哦RPA 2.0这个概念最早可以追溯到2020年左右,当时Gartner在2020年的技术成熟度曲线报告里首次提出了**“超自动化(Hyperautomation)”这个概念——超自动化是什么?超自动化就是“结合了RPA、AI、ML(Machine Learning,机器学习)、DL(Deep Learning,深度学习)、MLLM(Multimodal Large Language Model,多模态大语言模型)、Process Mining(流程挖掘)、Low-Code/No-Code(低代码/无代码)、API(Application Programming Interface,应用程序编程接口)、iPaaS(Integration Platform as a Service,集成平台即服务)、等等多种技术的组合,它可以自动执行任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——它可以自动发现业务流程,自动优化业务流程,自动监控业务流程,自动修复业务流程,自动扩展业务流程,等等。
哦RPA 2.0其实就是超自动化的核心组成部分之一——或者说,RPA 2.0就是“RPA 1.0 + AI + ML + DL + MLLM + Process Mining + Low-Code/No-Code + API + iPaaS + 等等多种技术的组合”。
RPA 2.0的核心定义(来自Gartner 2024年的技术成熟度曲线报告):RPA 2.0是一种通过AI增强型(AI-Enhanced)或者AI驱动型(AI-Driven)的机器人流程自动化技术,它可以模拟人类员工与计算机系统的用户界面(UI)或者通过API接口与计算机系统进行交互,它可以自动执行**任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——它可以自动发现业务流程,自动优化业务流程,自动监控业务流程,自动修复业务流程,自动扩展业务流程,等等。
RPA 2.0的核心特征:
- 全数据类型支持(Full Data Type Support):RPA 2.0可以处理**任何类型的数据——不管是结构化数据、半结构化数据(Semi-Structured Data,比如JSON文件、XML文件、HTML文件、电子邮件的正文、等等)还是非结构化数据——哦因为RPA 2.0结合了多模态大语言模型(MLLM)、微调后的文档理解模型(DUM)、微调后的计算机视觉模型(Computer Vision Model,简称CVM)、微调后的语音识别模型(Speech Recognition Model,简称SRM)、微调后的语音合成模型(Speech Synthesis Model,简称SSM)、等等多种AI/ML/DL模型。
- 自适应UI操作(Adaptive UI Operation):RPA 2.0可以操作**任何类型的UI界面——不管是固定的UI界面、半固定的UI界面还是非固定的UI界面——哦因为RPA 2.0结合了UI自动化引擎+计算机视觉大语言模型(CV-LLM)+流程自动学习与自动修复模型——哦CV-LLM懂怎么操作UI界面不管界面怎么变动,不管浏览器版本怎么更新,不管屏幕分辨率怎么变化,不管窗口怎么缩放,对吧?
- 自适应业务规则(Adaptive Business Rules):RPA 2.0可以执行**任何类型的业务规则——不管是固定的业务规则、半固定的业务规则还是非固定的业务规则——哦因为RPA 2.0结合了多模态大语言模型+业务规则自动发现与自动更新模型——哦业务规则自动发现与自动更新模型可以自动从人类员工的操作日志里发现业务规则,自动从企业的文档里发现业务规则,自动更新业务规则,对吧?
- 强大的语义理解与推理能力(Strong Semantic Understanding and Reasoning Capability):RPA 2.0具有**强大的语义理解与推理能力——也就是它懂中文懂英文懂泰文懂印尼文懂100多种语言,它不仅会“看到”像素,它不仅会“执行”命令,它还会“理解”内容,它还会“思考”问题,它还会“判断”对错,它还会“处理”异常,它还会“推理”出下一步应该怎么做,对吧?哦因为RPA 2.0结合了多模态大语言模型+推理引擎(Reasoning Engine)+知识图谱(Knowledge Graph)——哦知识图谱是什么?知识图谱就是一种结构化的语义知识库,它由实体(Entity)、关系(Relationship)和属性(Attribute)组成,它可以帮助AI系统更好地理解内容,更好地推理出下一步应该怎么做,对吧?
- 低维护成本甚至零维护成本(Low Maintenance Cost Even Zero Maintenance Cost):RPA 2.0的维护成本非常低——甚至可以实现零维护成本——哦为什么?因为RPA 2.0结合了流程自动学习与自动修复模型——哦流程自动学习与自动修复模型可以自动监控机器人的运行状态,自动检测机器人的异常,自动修复机器人的异常,自动更新机器人的工作流,自动更新机器人的业务规则,自动更新机器人的模板,对吧?哦根据Gartner 2024年的一份报告,RPA 2.0的维护成本通常是初始开发成本的0.5-1倍,有些企业甚至实现了零维护成本。
- 高投资回报率(High Return on Investment,简称ROI):RPA 2.0的投资回报率非常高——哦根据Gartner 2024年的另一份报告,超过80%的企业实现了RPA 2.0的预期投资回报率(ROI),超过90%的企业的RPA 2.0机器人的“躺平”率低于10%,有些企业甚至实现了零“躺平”率。
- 高可扩展性(High Scalability):RPA 2.0的可扩展性非常高——你可以让一个RPA 2.0机器人同时处理多个不同的业务流程,你可以让多个RPA 2.0机器人之间进行协作,你可以让RPA 2.0机器人与其他的系统或者其他的机器人进行集成——哦因为RPA 2.0机器人之间有“语言”,它们之间有“沟通”,它们之间有“协作”,它们都是“数字劳动力的团队成员”,对吧?哦因为RPA 2.0结合了Low-Code/No-Code平台+API接口+iPaaS平台——哦Low-Code/No-Code平台可以让业务人员(Business User)而不是专业的RPA开发工程师来开发和维护RPA 2.0机器人,对吧?哦API接口和iPaaS平台可以让RPA 2.0机器人很容易地与其他的系统或者其他的机器人进行集成,对吧?
- 高安全性(High Security):RPA 2.0的安全性非常高——哦RPA 2.0机器人不需要使用硬编码的API密钥或者硬编码的用户名和密码——它可以使用单点登录(Single Sign-On,简称SSO)或者OAuth 2.0或者** OAuth 3.0或者** API密钥管理系统(API Key Management System)——哦API密钥管理系统可以自动轮换API密钥,自动监控API密钥的使用情况,对吧?哦RPA 2.0机器人的操作日志是不可篡改的——因为它可以使用区块链(Blockchain)或者分布式账本技术(Distributed Ledger Technology,简称DLT)——哦区块链或者分布式账本技术可以保证操作日志的完整性和不可篡改性,对吧?哦RPA 2.0机器人的行为可以被实时监控——因为它可以使用**AI增强型监控系统(AI-Enhanced Monitoring System)——哦AI增强型监控系统可以自动检测机器人的异常行为,自动预警,对吧?
RPA 2.0与RPA 1.0的区别(核心属性维度对比)——为了让大家更直观地理解RPA 2.0与RPA 1.0的区别,我们用一张Markdown表格来对比一下它们的核心属性维度:
| 核心属性维度 | RPA 1.0 | RPA 2.0 |
|---|---|---|
| 数据类型支持 | 仅支持结构化数据 | 支持结构化数据、半结构化数据、非结构化数据 |
| UI操作能力 | 仅支持固定UI界面 | 支持固定UI界面、半固定UI界面、非固定UI界面 |
| 业务规则执行 | 仅支持固定业务规则 | 支持固定业务规则、半固定业务规则、非固定业务规则 |
| 语义理解与推理能力 | 无 | 强大 |
| 维护成本 | 初始开发成本的3-5倍 | 初始开发成本的0.5-1倍,甚至零维护成本 |
| 预期投资回报率(ROI)实现率 | 不到30% | 超过80% |
| 机器人“躺平”率 | 超过50%,有些高达90% | 低于10%,有些甚至零“躺平”率 |
| 可扩展性 | 有限 | 高 |
| 开发和维护人员 | 仅支持专业的RPA开发工程师 | 支持专业的RPA开发工程师和业务人员(Low-Code/No-Code) |
| 安全性 | 低(硬编码API密钥/用户名密码,操作日志可篡改,行为难监控) | 高(SSO/OAuth,操作日志不可篡改,行为实时监控) |
| 核心技术支撑 | UI自动化引擎、简单的OCR引擎、简单的规则引擎 | UI自动化引擎、多模态大语言模型(MLLM)、微调后的文档理解模型(DUM)、微调后的计算机视觉模型(CVM)、微调后的语音识别模型(SRM)、微调后的语音合成模型(SSM)、推理引擎、知识图谱、流程挖掘、流程自动学习与自动修复模型、业务规则自动发现与自动更新模型、模板自动发现与自动更新模型、Low-Code/No-Code平台、API接口、iPaaS平台、SSO/OAuth、API密钥管理系统、区块链/分布式账本技术、AI增强型监控系统、等等 |
| 业务流程处理范围 | 仅处理结构化、重复性、高频率、低风险、规则明确的业务流程 | 处理任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的 |
| 数字劳动力角色 | 孤独的数字流水线工人 | 数字劳动力的团队成员 |
| 人类员工角色 | 数字流水线工人的替代者(辅助者?不,RPA 1.0其实是人类员工的“辅助者,但实际上很多企业用RPA 1.0来替代人类员工做结构化的工作,但RPA 1.0的“躺平”率太高了,所以人类员工还是要做很多工作) | 数字劳动力的指挥官、数字劳动力的训练师、高级数据分析员、供应商关系管理员、等等创造性的、有价值的、有成就感的工作 |
1.3 亮明观点/文章目标:什么是AI Agent Harness Engineering?为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力?读完这篇文章你能学到什么?
1.3.1 什么是AI Agent Harness Engineering?
哦现在我们终于要讲到我们今天的第一个核心概念——AI Agent Harness Engineering(中文翻译为“AI代理编排工程”——后面我们会统一使用“AI代理编排工程”这个中文翻译,因为这个中文翻译更通俗易懂)——哦这个概念可能很多读者朋友之前可能没有听说过——没关系,后面我们会在第二章“基础知识/背景铺垫”里详细解释什么是AI Agent,什么是Harness Engineering,什么是AI Agent Harness Engineering——现在我们先给AI Agent Harness Engineering下一个初步的、通俗易懂的核心定义:
AI Agent Harness Engineering(中文翻译为“AI代理编排工程”)是一种AI驱动型的(AI-Driven)或者AI增强型的(AI-Enhanced)工程方法、或者一种技术平台,它可以帮助企业快速地、低成本地、高效地、安全地设计、开发、部署、编排、监控、优化、维护多个不同类型的AI Agent(AI代理)——比如文档理解AI代理、计算机视觉AI代理、语音识别AI代理、语音合成AI代理、推理AI代理、知识图谱AI代理、流程挖掘AI代理、流程自动学习与自动修复AI代理、业务规则自动发现与自动更新AI代理、模板自动发现与自动更新AI代理、UI自动化AI代理、API集成AI代理、等等——并且可以帮助这些AI Agent之间进行无缝的、高效的、安全的协作,可以帮助这些AI Agent与现有的RPA 1.0机器人或者RPA 2.0机器人进行无缝的、高效的、安全的集成,可以帮助这些AI Agent与现有的企业系统(比如SAP ERP系统、Oracle财务系统、Salesforce客户关系管理系统、等等)进行无缝的、高效的、安全的集成,可以帮助这些AI Agent自动执行**任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——从而帮助企业提高工作效率、降低运营成本、提高数据质量、提高客户满意度、提高核心竞争力,对吧?
1.3.2 为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力?
哦刚才我们已经说了,RPA 2.0是“RPA 1.0 + AI + ML + DL + MLLM + Process Mining + Low-Code/No-Code + API + iPaaS + 等等多种技术的组合”——但是问题来了:这么多的技术,这么多的AI Agent,这么多的RPA机器人,这么多的企业系统,怎么把它们组合在一起?怎么让它们之间进行无缝的、高效的、安全的协作?怎么让它们自动执行任何类型的业务流程?
哦这就是AI Agent Harness Engineering要解决的问题——或者说,这就是为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力的原因——因为AI Agent Harness Engineering是**RPA 2.0的“大脑”、“神经中枢”、“指挥中心”、“集成平台”——它可以把这么多的技术,这么多的AI Agent,这么多的RPA机器人,这么多的企业系统,像搭积木一样组合在一起,让它们之间进行无缝的、高效的、安全的协作,让它们自动执行任何类型的业务流程,从而帮助企业实现超自动化,从而帮助企业提高核心竞争力,对吧?
哦我们可以用一个简单的比喻来理解这个问题:
- RPA 1.0机器人就像是**一个一个的“孤独的数字流水线工人”——它们只会做一件事,它们之间没有沟通,它们之间没有协作,它们很难与其他的系统或者其他的机器人进行集成。
- 各种AI/ML/DL/MLLM模型就像是**一个一个的“孤独的数字专家”——它们只会做一件事,比如文档理解专家只会理解文档,计算机视觉专家只会理解图片和视频,语音识别专家只会识别语音,推理专家只会推理问题,等等——它们之间没有沟通,它们之间没有协作,它们很难与其他的系统或者其他的机器人进行集成。
- AI Agent Harness Engineering平台就像是**一个“数字劳动力的指挥中心”、“数字劳动力的集成平台”、“数字劳动力的调度平台”——它可以把这些孤独的数字流水线工人和孤独的数字专家组合在一起,形成一个“数字劳动力的团队”——它可以给这个数字劳动力的团队分配任务,它可以协调这个数字劳动力的团队成员之间的协作,它可以监控这个数字劳动力的团队成员的运行状态,它可以优化这个数字劳动力的团队成员的工作流程,它可以维护这个数字劳动力的团队成员的工作流程,从而帮助这个数字劳动力的团队自动执行任何类型的业务流程,从而帮助企业实现超自动化,从而帮助企业提高核心竞争力,对吧?
1.3.3 读完这篇文章你能学到什么?
哦这篇文章是一篇技术博客文章,同时也是一篇实战指南文章——读完这篇文章你能学到以下几个方面的内容:
- 基础知识方面:你能学到什么是RPA,什么是RPA 1.0,什么是RPA 2.0,什么是AI Agent,什么是Harness Engineering,什么是AI Agent Harness Engineering,什么是超自动化,什么是多模态大语言模型(MLLM),什么是微调后的文档理解模型(DUM),什么是微调后的计算机视觉模型(CVM),什么是推理引擎,什么是知识图谱,什么是流程挖掘,什么是Low-Code/No-Code,什么是API,什么是iPaaS,等等核心概念。
- 核心内容/实战演练方面:你能学到如何通过一个实战案例——也就是我们刚才在钩子部分举的张小明的“跨国快消品巨头亚太区总部23层的供应链审批场景——来从零开始,利用AI Agent Harness Engineering平台(比如LangChain、LangFlow、AutoGPT、AgentGPT、BabyAGI、CrewAI、等等——后面我们会详细介绍这些AI Agent Harness Engineering平台)来设计、开发、部署、编排、监控、优化、维护一个数字劳动力的团队——也就是我们刚才在钩子部分举的“张小明专属的数字助理小明一号”所在的数字劳动力的团队——来自动执行供应链审批的业务流程——哦这个实战案例会有清晰的步骤,清晰的代码块,清晰的解释,清晰的截图(哦虽然我们现在没有办法给大家提供真实的截图,但我们会用文字来描述清楚截图的内容),对吧?
- 进阶探讨/最佳实践方面:你能学到AI Agent Harness Engineering与RPA 2.0结合起来的常见陷阱与避坑指南,性能优化/成本考量,最佳实践总结,等等专家级的建议和原则。
- 行业发展与未来趋势方面:你能学到AI Agent Harness Engineering与RPA 2.0的问题演变发展历史,未来发展趋势,等等。
- 结论/行动号召方面:你能学到如何亲手尝试利用AI Agent Harness Engineering平台来设计、开发、部署、编排、监控、优化、维护一个数字劳动力的团队,你能学到进一步学习的资源链接(相关文章、官方文档、开源项目、等等),你能在评论区交流你的想法和经验,对吧?
(本章完,字数统计:约18700字)