分享
Chatbot限制了对AI Agent的想象力——斯坦福、MENLO Ventures再论Agent市场格局!
输入“/”快速插入内容
Chatbot限制了对AI Agent的想象力——斯坦福、MENLO Ventures再论Agent市场格局!
飞书用户2749
2024年9月29日修改
关于AI Agent,公众号里最近涉及不少——
比如这是Google眼里的Agent版图:
谷歌最新发布!185个头部AI应用落地案例,6大方向Agent前景一览
。
再比如a16z对于Agent和Copilot的对比分析:
a16z硅谷预判|每个白领岗位都会有一个Copilot,直到被Agent取代
。
今天给大家带来的是来自MENLO Ventures的最新mapping,斯坦福SAIL提供相关数据及支持。
生成式AI应用跑通PMF的,目前有三大类:搜索、合成和生成。
Menlo Ventures 投资组合中的Sana (企业搜索)、Eve (法律研究copilot)和Typeface (内容生成 AI)等公司,分别代表了每个类别的早期突破性案例,这些案例都以 LLM 的少样本推理能力为中心。
但GenAI的前景,远远超出了第一波核心用例。能够为您读写的人工智能很棒,但更令人兴奋的是能够代表您思考和行动的人工智能。
为此,我们已经看到Anterior、Sema4和Cognition等领先的应用程序构建者,在构建更自动化的解决方案,来处理以前只能由大量人类解决的工作流程。
借助多步逻辑、外部存储器以及访问第三方工具和 API 等新构建模块,下一波代理正在扩展 AI 功能的边界,实现端到端流程自动化。
在深入研究 AI 代理领域时,MENLO Ventures 针对新兴市场的观点如下——
首先定义代理是什么以及是什么使代理成为可能。将追溯现代 AI 堆栈的架构演变,从少量提示到检索增强生成 (RAG),再到成熟的代理系统,然后在后续文章中探讨这种范式转变对应用程序和基础设施层的影响。
AI Agent的认知架构四个构建模块
完全自主的Agent由四个要素定义,这四个要素结合起来可实现完全的代理能力:推理、外部记忆、执行和规划。
•
推理。
在最基本的层面上,Agent必须能够对非结构化数据进行推理。基础模型(如Anthropic和 OpenAI)已经非常有效地实现了这一功能,它们将部分世界模型编码到 LLM 的预训练权重中,并利用这些权重来获取一般知识和基本逻辑。
•
外部记忆。
除了一般知识外,代理还需要外部记忆来存储和调用特定领域的知识以及他们正在解决的问题的有界上下文,通常通过像Pinecone 这样的矢量数据库。
•
执行。
代理使用工具来执行任务,以增强其解决问题的能力。许多早期的代理平台都提供预定义在代码中的自定义操作工具箱,供代理选择。但许多通用代理工具也开始出现,包括网页浏览、代码解释、身份验证和授权,以及与 CRM 和 ERP 等企业系统的连接器,以在这些系统内执行 UI 操作。
•
规划。
Agent不会尝试通过单线程的下一个标记预测序列来解决复杂问题(例如一口气写完一篇文章,从第一个单词开始,直到最后一个单词才停止),而是遵循更像人类的思维过程,将工作分解为更小的子任务和计划,反思进度,并根据需要重新调整。
参考架构:从 RAG 到自主代理的 AI 示例
需要明确的是,未来完全自主的代理可能拥有所有四个构建模块,但今天的 LLM 应用程序和代理却没有。
例如,流行的 RAG 架构不是代理性的,而是利用推理和外部记忆作为其基础。一些设计,如OpenAI 的结构化输出,甚至支持工具使用。
然而,重要的区别在于,这些应用程序利用 LLM 作为语义搜索、合成或生成的“工具”,但它们采取的步骤(即它们的逻辑流程)仍然是由代码预先确定的。
相比之下,当你将 LLM 置于应用程序的控制流中并让它动态决定要采取哪些操作、使用哪些工具以及如何解释和响应输入时,代理就会出现。
只要这是真的,一些代理甚至不需要与外部工具交互或采取行动。