原文:AI Agents are disrupting automation: Current approaches, market solutions and recommendations - 2024.05.09
Insight Partners发布了一篇非常详尽的人工智能智能体的调研,一篇文章就可以完成对智能体概念的入门。
详细介绍了自动化平台的演化过程、RPA和任务自动化平台的实现方式、现阶段 AI 智能体的定义以及分类、最后是关于企业和智能体构建者的建议。
AI 工具的普及点燃了人们对知识工作者和消费者生产力大幅提升的希望。基于 Transformer 的大语言模型 (Large Language Models, LLMs) 展示了正在通过全新自动化方法来革新工作流程的 AI 能力。本文将追溯 AI 时代的自动化历程,深入探讨一些当前和不断发展的平台。文章内容基于我们与研究人员、开发者、从业者、企业用户以及 Insight 内部的众多讨论。
先从几个自动化领域发展趋势的预测开始:
- 从消费者到知识工作者,每个人都将拥有自己的 AI 助手。这将重新定义垂直应用、自动化平台和 IT 服务之间的传统边界,为企业家创造变革性的市场机会。AI 助手将以不同形式出现,从现有平台的辅助工具,到内嵌 AI 的应用,再到各种形态的 AI 智能体 (AI Agent)。
- 人机协作是部署生成式 AI 解决方案的核心。目前大多数应用场景都处于实验或早期生产阶段,侧重于建议和辅助型工作流程。LLMs 还不具备可靠的规划和推理能力,记忆和上下文理解等领域仍在研究中。在自动化平台上,确定性执行至关重要,LLMs 被用于"设计期"的特定任务,而非"运行期"。
- 自动化是一个被低估的难题。从业者正将 AI 加入他们的解决方案和专业经验,以提升平台效率和用户体验。顶尖的 LLM 提供商正在加入智能体建模、协作和工具访问功能,让用户能快速构建 AI 智能体 (如 GPT 系列)。有望突破的新兴企业需要利用独特的数据集和简洁的用户体验,提供差异化的客户价值,重塑工作流程。
- 内置 AI 的自动化部署将采取"从简单到复杂"的渐进方式,从简单任务开始,逐步过渡到复杂工作流。关键是持续尝试智能体,了解 AI 功能在哪些地方真正创造价值,并确保在数据、工具和运行时等方面搭建合适的"脚手架",使其成为自动化架构的一部分。随着 AI 模型能力的增强,可以逐步扩大 AI 功能的应用范围。
- 代码生成已成为开发基于生成式 AI (GenAI) 应用和 Agent 自动化平台的关键要素。代码兼具文本形式和明确性能指标两大特性,是 LLM 的理想功能。编程辅助工具的初版已经广泛部署,我们看到更成熟的 AI 驱动开发平台正在涌现。代码生成型 LLMs 将在智能体架构中扮演关键角色。
自动化平台的演进
自动化是人类不懈追求的目标。每个知识工作者都熟悉"宏"这一朴素概念——通过重复指令序列的快捷方式来提高工作效率。
早期的自动化尝试聚焦在报价到回款、薪资等流程,工程师编写定制代码,将这些流程组合在一起,由静态规则和定义驱动。这些脆弱的早期方法催生了第一代自动化平台的发展,例如:
- 机器人流程自动化 (RPA) 平台在自动化重复手工任务方面发挥最大价值。它们结合了预定义工作流程库和低代码/无代码平台,帮助用户构建自己的自动化脚本。RPA 平台已逐步融合 AI/ML 模型以拓展其能力。
- 像 Workato 这样的集成平台即服务 (iPaaS) 通过构建连接数据、应用和 API 的中间件层实现不同资源的集成。这个数据层是自动化引擎的关键输入,打造清晰的接口是自动化旅程的第一步。
- 低代码任务自动化平台提供一组预定义集成和简单界面,帮助知识工作者和中小企业自动化重复性任务。
- 各种垂直领域自动化解决方案聚焦于供应链、IT 运维、开发者生态等特定领域的工作流程,以及服务台、客服团队等面向客户的聊天机器人应用。
虽然这些平台显著减少了重复劳动,但复杂性仍存在于借助预定义流程实现自动化价值,或通过咨询式部署的前期准备中。而且实施方案也容易受到企业运营环境变化的影响。
生成式 AI 有望加速这一自动化进程,因为从业者正将令人惊叹的新功能融入平台,开发者正在尝试全新架构,研究人员也在朝着自主人工通用智能 (AGI) 的终极目标不断努力。
自动化中的 AI:多元参与者,差异化方法
企业自动化通常是复杂的系统工程,从业者甚至将其视为编排多个要素来执行工作流的"乐谱"。随着生成式 AI 的兴起,从业者和创业公司正从不同视角把握这一机遇。
- RPA 和任务自动化平台凭借丰富的自动化工作流程库和企业复杂流程实施经验,拥有先发优势。生成式 AI 为其提供了通过简化用户体验,解决系统脆弱性和繁琐搭建等难题的良机。
- Microsoft 365、Notion 等应用平台正在将 AI 直接嵌入平台和用户工作流,辅助任务完成、提供建议并生成内容,为用户赋能。
原生 AI 方法从应用或工作流出发,以第一性原理( first-principles perspective)重新思考自动化。在应用层面,Swimm、Writer 等新生产力工具令人惊艳地展示了生成式 AI 对工作模式的革新。各行业应用如销售、营销、法律、财务等也在利用生成式 AI 简化复杂工作。
LLM 提供商和创业公司在自动化领域开辟新路径,利用智能体驾驭生成式 AI 能力执行简单任务。另一些方法将 LLMs 与必要的"脚手架(scaffolding)"相结合,应对复杂工作流和应用。Agent 自动化是目前不断创新和研究的焦点,开发者正在模型、架构和工具方面进行广泛实验。
RPA 与任务自动化平台
当前一代自动化平台已积极将新兴 ML 和 AI 模型纳入体系,其现状概述如下:
- 用户界面
用户通过界面连接到低代码工作室,在其中构建、部署和验证自动化流程。该界面还可监控性能、追踪策略使用情况,甚至衡量自动化的投资回报率。
- iPaaS
iPaaS 作为中间件发挥关键作用,整合来自应用、数据库和事件流的数据,为自动化层提供高效接口。
自动化层(Automation layer)
自动化层利用工作室的模板,从预构建的脚本库、预测型 ML 模型和工具集中选取,或执行全新工作流。常见应用包括:
- 从图像、邮件等非结构化来源提取数据,自动填充表单。
- 观察人工操作(如屏幕浏览、按键记录),生成可重复工作流或建议潜在自动化项。
- 从库存系统提取数据,利用 ML 模型生成预测。
从业者正利用生成式 AI 简化用户参与,创造新型工作流,例如:
- 输入"销售线索挖掘"等任务,辅助工具解析意图并搜索自动化库,为用户的任务提供起点。
- 依据预训练模板创建表单,更新相应字段,用从多个非结构化源提取的数据自动填充。
- 根据自然语言描述生成构建自动化的"低代码",并提供校验输出和工作流说明的测试用例。
AI 工具助力这些平台巩固既有优势(客户资源和脚本库),加速用户的价值实现。改进的 UI/UX 减轻了复杂部署场景下的繁琐引导。随着 LLM 能力的进步,RPA 和任务自动化平台也将不断升级。
"未来,人类与数字世界的一切交互都将通过 AI 智能体实现。"– 杨立昆 (Yann LeCun)
Agentic 自动化框架: Copilots/GPTs 和Agents
市场上常用于生成式 AI (Generative AI, GenAI) 应用场景的术语
- Copilots (辅助工具) 是基于生成式 AI 的现有应用和平台的交互界面,为用户提供更简便的方式来探索和增强原有功能。
智能体 (Agent) 将大语言模型 (Large Language Model, LLM) 的能力与代码、数据源和用户界面相结合,以执行工作流程。开发者正在探索几种方法:
- 围绕 LLM 或针对特定任务 (如代码生成) 训练的 LLM 构建简单的封装器。
- 采用专家混合 (Mixture of Experts, MoE) 架构,通过"脚手架(scaffolding)"将针对特定任务的智能体、预定义的代码/工作流程和外部工具整合,重塑应用或实现复杂任务自动化。
- 通用智能体 (General Purpose Agents) 旨在通过简单地描述任务来实现任意任务的自动化。这仍是研究人员的长期目标,需要 AI 能力的持续进步——更多详情请参阅下文的"参考资料和延伸阅读"。
No-Code Agents/GPTs
能体最初是以实验项目的形式出现,如 Yohei Nakajima 发布的 Baby AGI,它基于 LLM 的原生功能实现简单的自动化。如今,LLM 提供商提供强大的无代码平台,集成了连接外部资源的插件库,可用于构建定制版 LLM。对于许多简单任务或一次性自动化需求,这可能是一种快速上手的方式。
在这种方法中,无代码控制台允许用户提供任务的详细描述,或使用少样本提示 (Few-shot Prompting) 来引导 LLM 构建任务智能体。LLM 提供商现在提供与数据源和应用的集成,使智能体能够将外部数据纳入工作流程。智能体还可利用专有数据,并使用检索增强生成 (Retrieval Augmented Generation, RAG) 等技术提高准确性。API 为智能体引入了搜索等外部工具。
如上图所示,高级智能体可围绕 LLM 的能力构建,并使用胶水代码 (Glue Code) 将各种要素整合为一个统一的智能体。LLM 提供商预计将持续推出新功能,如智能体建模、协作、更多工具访问和预构建功能、反思、安全防护等,使其成为构建智能体的强大平台。
MoE Agents
Mixture of Experts agent architectures
Bardeen、Imbue、MultiOn 等开发者正在采用专家混合智能体框架,例图为复杂工作流提供确定性结果。其思路是将工作流拆解为分配给特定智能体或函数的任务,并为智能体提供必要的"脚手架",包括数据、丰富的工具集和接口。架构概览如下:
User Interface
面向用户的 LLM 使其能够描述任务,并利用上下文窗口提供相关背景,如少样本示例。新的 UI 方法融合了用户上下文和交互性,允许用户引导智能体并优化其方法。这一设计支持 "人在环 (Human-in-the-loop)" 来验证最终输出。更流畅的人机交互界面可提供输入并确认最终结果。
Task Agents
工作流可被分解为由 LLM 智能体执行的不同任务,部分详述如下。这优化了当前 LLM 的能力,并允许灵活地将任务智能体用于具有清晰抽象的特定功能,未来还可对其进行升级或重构。
- 规划智能体(Planning Agents)可提出计划,将用户意图分解为任务清单,经人工审批后再进行调度执行。这仍是一个活跃的研究领域。
- 路由任务(Routing tasks) 负责将任务映射到合适的 AI/ML 智能体或预定义工作流程。
- 功能智能体(Functional agents) 接受针对特定任务的训练 (生成式 AI 或预测性 ML 模型)。
- 代码生成智能体(Codegen Agent) 将任务转换为特定任务所需的代码,如 SQL 查询。
- 反思型 LLM (Reflection LLM) 通过迭代输出来评估质量并优化最终结果。Devin 等平台已证实这一技术在提高输出准确性方面的有效性。
Deterministic runtime 确定性运行时
为始终交付正确的最终输出,在确定性运行时整合来自不同任务的输出已被证明是一种良好实践。例如,在金融场景中,代码生成 LLM 会生成 SQL 查询,在运行时执行以精确提取数据。
MoE 架构的核心设计原则是仅在必要时使用 AI/ML 模型,并充分利用预定义的工作流/脚本。LLM 主要在设计阶段使用,并与确定性运行时相结合。
Agent-to-Human AI interfaces
如前所述, human-in-the-loop 界面是当前架构的关键要素。开发者正通过多种方式将智能体植根于用户上下文,从在上下文窗口中输入,到将智能体设计为浏览器插件以观察用户行为并捕获上下文。LLM 插件引入外部数据或工具,是赋予智能体更多技能的关键。
此外,智能体可通过 API 与电子邮件、生产力工具、通信平台等用户平台互动,模拟典型的人工工作流。
Agent-to-Agent interfaces 是一个活跃的研究和开发领域。在 MoE 模型中,具有不同能力的任务智能体需要如前所述进行交互。久而久之,可以设想智能体之间通过交互来完成任务——类似于如今连接应用的 API,延伸出支持 AI 的版本。
企业部署自动化的考量
- 大多数企业已采用一系列自动化平台,从针对特定任务的经典 RPA 和任务自动化平台,到内部研发的解决方案。AI 带来的生产力提升仍更多停留在炒作阶段。基于生成式 AI 的自动化方案需要进行客观的成本效益分析,因为它们将经历与之前方法类似的成熟过程。
- "关键在数据,笨蛋。" AI 智能体的性能与训练数据的质量和相关性直接相关。对许多企业而言,构建干净且集中的数据集和数据管道来训练模型,是这一旅程的起点。
- 随着 GPT-5/Llama 3 的即将发布,LLM 领域正在快速演进,这将刷新 SOTA 标准。同时,现在已有多个达到 GPT-4 级别性能的模型,且成本更具吸引力。企业可根据用例和功能需求,在不同来源、不同性价比的模型中做出选择。
- 在平台层面,市场有多种选择。established players 正将 AI 嵌入产品或提供辅助工具,以加速用户价值实现。初创公司/规模化企业和 LLM 提供商正采用原生 AI 方法重塑垂直领域应用,或打造全新平台,以变革成本、性能和用户体验。应根据工作流和性能基准做出选择。
- 当前的 LLM 对输入提示非常敏感,细微差异可能导致模型输出偏移。在用例层面(而非模型层面)建立明确的性能度量标准至关重要。治理和数据安全同样如此。如今, Human-in-the-loop 是所有 AI 部署的基本特征。
自动化领域开发者的思考要点
- 开发者可以在自动化平台中采用"爬行、行走、奔跑(crawl, walk, run)"的策略,循序渐进地应用生成式 AI。深入理解用户、用例和性能基准,并将大语言模型视为匹配其能力与任务的工具,是打造差异化解决方案的关键。
- 大语言模型主要是系统 1 思维者(基于训练数据做出直觉反应)。开发者应在需要差异化能力时使用大语言模型,而在可能的情况下采用预定义函数/脚本和机器学习模型。集中且有针对性的数据集对于模型落地至关重要。
- 对于复杂用例,不断试错以及搭建合适的"脚手架"以融合用户上下文、连接外部工具和数据集、构建反思机制等,是"专家混合"智能体架构的基石。
- 简洁的文本界面是良好的起点。开发者正在通过加入实时交互和多模态用户界面 (Multimodal UI) 进行创新,让用户能够更积极地参与,追踪大语言模型的任务清单,评估输出结果,并提供反馈以优化输出。
- 引入具备合适治理机制的差异化数据集,并深入思考安全性考量、安全防护和性能问题,对于避免在最终用户环境中部署时出现监管及合规问题至关重要。
生成式 AI 智能体应用场景
在我们与企业的交流中,智能体自动化 (Agentic Automation) 领域正在开展各种尝试。以下是一些具体应用案例:
- 某 F100 电信公司首席数据官:"我们正在构建自主智能体工作流,将表格和数据库连接起来,整合多个数据源,然后基于数据采取行动或提出建议。"
- 某全球咨询公司数据与 AI 副总裁正在构建智能体工作流,帮助数据分析师从不同电子表格中提取洞见。
- 某 F500 建筑地产公司数据与 AI 高级副总裁正在开发一款智能体应用,集成 Palantir、OpenAI 和内部辅助工具,从数千份投标书中选出中标方案。
- 某大型银行高级副总裁:"我看到生成式 AI 有两大活跃应用场景。一是面向所有工程师推出的编程辅助工具,使资深工程师的生产力提升了 20% 以上。我们期待其提供更多新功能。二是利用大语言模型与文档对话,检索增强生成 (RAG) 技术在保护隐私的同时,显著改善了模型的知识植入方式。聊天机器人还处于试验性推广阶段,我们仍在完善这一用例,重点关注安全与合规。"
- 某大型银行首席数字官:"自动化将以多种形式出现在我们的业务中。我们大量采用 RPA,以及 ITSM 等垂直领域自动化平台,并基于大语言模型构建了智能体。我们正积极试验智能体自动化架构,在实践中不断学习。一些原有供应商在整合 AI 方面展现出了极大的敏捷性。"
AI 自动化市场图谱
AI 创新的步伐只会加快。需要说明的是,本文讨论的许多方法仍处于实验和早期生产阶段。
随着智能体和自动化领域的不断演进,我们将持续追踪并及时更新这一领域的最新动态。同时,我们欢迎有机会与正在开发智能体自动化、重塑垂直应用、打造差异化基础设施平台的创业者合作,期待与社区展开反馈和对话。
注:Insight Partners 投资了 Workato、Jasper、Writer、Bardeen、Big Panda、Torq 等公司。
参考资料
[1] Yann LeCun, Objective Driven AI, Ding-Shum Lecture, Harvard University, 3-28-2024
[2] Andrew Ng, AI Agentic Workflows The Batch, Issue 241-245
[3] Evan Armstrong, What are AI Agents – And Who Profits From Them?
[4] Bardeen.ai, https://www.bardeen.ai/posts/are-ai-web-agents-a-gimmick
[5] Evaluating AI systems – Anthropic
[6] Unraveling Gemini: Multimodal LLMs on Vertex AI
[7] Devin: The AI software engineer with a game changing UI interface
[8] 101 real world Gen AI Use Cases : Google Cloud
[9] How people are really using Gen AI – HBR
[10] Insight Partners IGNITE Enterprise customer briefings
[11] The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey – Tula Masterman, Sandi Besen, Mason Sawtell, Alex Chao
[12] PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change– Karthik Valmeekam, Matthew Marquez, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati
[13] Market Map: Awesome AI agents: A list of autonomous agents, Agent Database, Staf.ai, Generative AI’s Act Two, Gen AI Infra Stack
[14] AIOS: LLM Agent Operating System – Kai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang
[15] Generative Agents: Interactive Simulacra of Human Behavior, Park etal.