icon

“金凤花”智能体与定制认知架构的威力

来源:
神译局
发布时间:2024-06-25
收藏收藏
分享
  • 复制链接
  • 微信扫一扫

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:很多人认为智能体(agent)是生成式人工智能的未来趋势。但对于智能体应该如何发展大家却看法不一。基于简单的链式流程的智能体还不够灵活或强大,没有真正利用好 LLM 范式,而完全自主的智能体往往又会失效,没法用。在二者之间找到平衡的“金凤花”智能体正赢得青睐。文章来自编译。

继 ChatGPT 之后,人工智能的下一个重大转折点是能够用大语言模型(LLM)自主与这个世界互动的智能体出现。AutoGPT 等项目人气飙升,但随后很快就销声匿迹,因为雷声大雨点小,炒作是雷声,现实是雨点。

但今年发生了一些有趣的事情——不管是在客户支持还是编码方面,更现实的智能体(agent)已上线并获得了关注。开发和部署智能体的新方法正在提高自身的性能与可靠性。

这很重要,因为智能体仍然是人工智能希望的关键:大语言模型很棒,但让人工智能真正替你去做计划与行动......这才是真正的有趣之处。人工智能越是能成为员工而不是工具,它能为我们提供的手段就越多。

为了探讨这一主题,我们采访了 LangChain 创始人兼首席执行官 Harrison Chase。Harrison 在 ChatGPT 推出之前就开始为 LLM 驱动的智能体建立基础设施了,而 LangChain 也已成为开发智能体应用的默认框架。找他了解智能体的演变,再合适不过。

智能体的范畴

我们把智能体定义为可让 LLM 控制应用流的任何应用。

事后看来,很明显 AutoGPT 太过宽泛、不受约束,无法满足我们的期望。虽然听起来令人兴奋,可以激发想象力,但作为 LLM 如何发展成为通用智能体的概念验证,它太过不受约束了,没法可靠地完成有用的事情。

最新一批智能体背后的秘密在于,它们使用了定制的认知架构来提供护栏以及控制状态的框架,从而让智能体集中注意力,并且不会脱轨,同时也充分利用了 LLM 的全部功能和能力。

定义我们在现实生活当中看到的智能体类型有个办法很有用,那就是将简单、硬编码的智能体与成熟的自主智能体区分开来。这样的思考框架阐明了“中间地带”,是我们最有可能在近期到中期内看到的那种有用的智能体。

在这个范畴最简单的那一侧,LLM 是充当“路由器”的作用,由它来决定走哪条路,可能还有一步是进行分类。在这种情况下,LLM 调用会控制应用的流程,但大多数逻辑仍然是硬编码的。而在最复杂的另一侧,则是完全自主的智能体,比方说像 AutoGPT 这样的。基于简单的链式流程的智能体还不够灵活或强大,没有真正利用好 LLM 范式,而完全自主的智能体往往又会失效,没法用。

有着定制化认知架构的“金凤花”智能体

开发者在智能体范畴的中间地带寻找“恰到好处”的平衡点,他们将大量的控制流移交给 LLM,但仍然维持一套自己的轨道以及一种“状态”感。

中间状态是能力、灵活性与控制的最佳平衡,但也是开发人员最难开发的那种智能体——需要一种结构化但非确定性的自定义认知架构。完全自主的智能体可以用很少的代码实现;在极端情况下,你只需让智能体在 for 循环当中每步选择一个动作。简单的智能体也很容易编码,因为需要控制的随机可变性非常少。在中间状态进行开发需要你将大量控制权(以及随机可变性)交给 LLM,同时还要控制高级的应用流程并进行状态管理。

Harrison 在访谈当中分享了贝索斯说过的一句精彩名言:“把注意力聚焦在让啤酒味道变得更好的东西上”,当时他拿20 世纪初啤酒厂自己发电与科技公司在 AWS 出现之前如何运营自己的基础设施进行了类比。在这个智能体经常会失效的世界里,SWE-bench 跑出 12-13% 的水平已被认为是最先进的,实施定制化的认知架构绝对可以让啤酒味道变得更好。

走在模型的前面

但这种情况能持续多久呢?Harrison在AI Ascent 大会的演讲里也提到了这个问题。当时他问道,底层 LLM 的改进会不会逐步将开发者在“中间地带”构建的推理和规划吸收进去呢?换句话说,定制化的认知架构会不会是一种权宜之计?

这个问题问得好:许多最早以提示工程为基础的智能体架构(如思维链)已默认融入到 LLM 的未来迭代之中,从而不需要围绕着 LLM 来开发它们。我们相信,有很多大型研究实验室的研究人员都在专注于推理、规划及搜索问题。

Harrison 认为,虽然越来越多的通用推理会默认融入到大语言模型之中,但应用或特定领域的推理还是需要的。尽管都要进行规划和行动来达到目的,但软件工程师与科学家的工作方式会大不相同,而且不同公司的科学家做法也会不同。领域以及特定应用推理的空间太大了,这些东西是没法有效地编码到通用模型之中的。

定制化认知架构比提示工程复杂,比LLM更专业

软件 2.0

用 LLM 开发应用属于新范式,与软件 1.0 的开发方式截然不同,需要新的可观察性和评估方法。Harrison 认为,许多传统的软件开发工具不足以应对 LLM 应用的不确定性。有了智能体以及控制应用逻辑的新方法,引入可观察性与测试来监控应用的行为就变得至关重要。如果你正在构建自定义的认知架构,务必思考以下几点:

  • 关于应用开发:你可能需要在“状态”图的环境下进行设计,然后需要用持久层、后台异步编排、状态的循环处理等进行管理和部署。Harrison 发现这种模式在智能体部署中经常出现,而 LangGraph 旨在帮助开发者构建这种新范式。

  • 关于可观察性与测试:现有的监控工具没法提供追踪 LLM 调用中所出现问题的洞察。而且在随机世界里,测试也有所不同——不会进行“测试 2=2”这种简单的,计算机可以运行的单元测试了。测试变成了一个更细致入微的概念,需要用上成对比较(比如 Langsmith、Lmsys)以及跟踪改进/回归等技术。所有这些都需要一套新的开发者工具。

“金凤花姑娘”智能体的兴起之所以令人兴奋,是因为创建可替我们工作且在我们控制范围内的软件这件事情的潜力巨大。实现这一潜力不仅取决于模型的改进(肯定会改进),还取决于管理这种全新应用开发的全新的工具生态体系。

译者:boxi。