炸翻AI和生化环材圈！GPT-4学会自己搞科研，手把手教人类做实验！

2023-05-07 15:05:32, 新智元北京携测技术有限公司

本周AI圈”最红炸子鸡“诞生——AutoGPT。不仅如此，这款软件系统的横空出世，一举将AI进程推向了新高度——自主人工智能。

顾名思义，它所具备的能力主打的就是一个“自主”，完全不用人类插手的那种！

例如一位网友就要求AutoGPT开发一个网站，结果不到3分钟，AI自己就用React和Tailwind CSS“唰唰唰”地搞定了。

AI自己上网、自己使用第三方工具、自己思考、自己操作你的电脑。

这一套打法，算得上是把“行动→观察结果→思考→决定下一步行动”这条路子给打通并循环了起来。

就连前特斯拉AI总监Andrej Karpathy对此都评价道：AutoGPT是提示工程的下一个前沿。

而且不只是AutoGPT，最近还陆陆续续地衍生出了各种自主人工智能工具，例如AgentGPT、BabyAGI等等。

然后网友们面对此景也坐不住了，惊叹于AI发展的日新月异：

这个新颖的AI代理智能体将会为化学实验带来彻底的变革。最近，卡耐基梅隆大学的几位科学家发表论文，公布了一个让AI圈和化学圈震惊的消息：由多个大型语言模型组成的智能体已经可以手把手地指导你进行化学实验，包括试剂选择、剂量确定以及反应推理等方面。

这个强大的AI代理智能体可以视作GPT-4的前身，其卓越的科研能力令人惊叹。简直是炸翻AI和生化环材圈！

这个AI代理智能体之所以如此惊人，是因为它内置了矢量数据库，具备长期的记忆力。这使得它可以阅读和理解复杂的科学文档，并在基于云的机器人实验室中进行化学研究。

网友们纷纷表示震惊到失语，不禁问道：难道这意味着它能够自主地开展研究并发表论文？简直不敢想象！

有网友感慨道，时代正在向着「文为实先」（TTE）迈进！

所以，这难道就是传说中化学界的AI圣杯吗？

最近，许多人都有一种共识：我们好像每天都生活在科幻小说中。

AI版绝命毒师来了？

3月，OpenAI 发布了备受瞩目的大型语言模型 GPT-4。

这个被誉为地表最强的语言模型，不仅在 SAT 和 BAR 考试中表现出色，还能轻松通过 LeetCode 挑战和解决物理问题，甚至能看懂表情包里的梗。更为惊人的是，在技术报告中，GPT-4 还展示了其解决化学问题的能力。这启发了卡内基梅隆大学化学系的几位学者，他们希望开发一款基于多个大型语言模型的 AI，让它自主进行实验设计和实验操作。

论文地址：https://arxiv.org/abs/2304.05332

这个AI 的表现果然不输人！还6得不行！

它能自主上网查找文献，精准地控制液体处理仪器，并且解决使用多个硬件模块以及整合不同数据源等复杂问题。这好像AI版的《绝命毒师》。

会自己做布洛芬的AI

举个例子，让这个AI给咱们合成布洛芬。

以合成布洛芬为例，只需要输入一个简单的提示：“合成布洛芬”。接着，这个 AI 模型就会自动上网搜索相关信息。它识别出，第一步需要让异丁苯和乙酸酐在氯化铝催化下发生 Friedel-Crafts 反应。另外，这个 AI 还能合成阿司匹林。

以及合成阿斯巴甜。

如果在合成过程中缺少甲基，这个 AI 模型会自动检索正确的合成示例，并在云实验室中进行更正。如果让它去研究铃木反应，只需简单地提示一下，它就能准确地识别底物和产物了。

另外，咱们可以通过API，把模型连接到化学反应数据库，比如Reaxys或SciFinder，给模型叠了一层大大的buff，准确率飙升。

而分析系统以前的记录，也可以大大提高模型的准确性。

举个例子

先来看看，操作机器人是怎么做实验的。

它将一组样本视为一个整体，并通过自然语言提示来进行操作。例如，我们可以直接用语言命令告诉它：“使用你选择的颜色，每隔一行涂上这个颜色”。在这个例子中，样本就是微孔板。

当让 AI 操作的机器人执行任务时，这些指令和提示和我们的语言命令非常相似（如图 4B-E 所示）。AI 代理首先会准备原始溶液的小样本（图 4F）。

接下来，它会请求进行 UV-Vis 测量。完成测量后，AI 将获得一个文件名，其中包含每个孔的光谱所组成的 NumPy 数组。接着，AI 会编写 Python 代码来识别具有最大吸收度的波长，并使用这些数据解决相应的问题。

拉出来溜溜

在以往的实验中，AI 可能会受到预训练阶段接收到的知识的影响。但是在这次研究中，研究人员计划对 AI 设计实验的能力进行全面评估。

首先，AI 会从网络上整合所需的数据，并运行一些必要的计算。然后，它会编写程序用于操作液体试剂系统（如图中最左侧的部分所示）。为了增加实验的复杂度，研究人员让 AI 应用了加热摇床模块。这些要求被整合到了 AI 的配置中。

具体的实验设计如下：AI 控制一个液体操作系统，该系统搭载了两块微型版。其中，源板（Source Plate）包含多种试剂的源液，例如苯乙炔、苯硼酸、多个芳基卤化物耦合伴侣，以及两种催化剂和两种碱。上图中就是源版（Source Plate）中的内容。

而目标板则安装在加热摇床模块上。上图中，左侧的移液管容量为 20 微升，右侧的单道移液管容量为 300 微升。AI 的最终目标是设计一套流程，能够成功实现铃木和索诺格希拉反应。我们可以提示它：“你需要使用一些可用的试剂，生成这两个反应。”然后，它就会自动上网搜索相关信息，例如这些反应需要什么条件，化学计量上有什么要求等等。

可以看到，AI 成功搜集到了所需的条件，包括试剂的定量、浓度等等。AI 选择了正确的耦合伴侣来完成实验。在所有的芳基卤化物中，AI 选择了溴苯进行铃木反应的实验，选择了碘苯进行索诺格希拉反应。

AI 在每一轮实验中的选择都有所改变。例如，它还选择了对碘硝基苯进行实验，因为这种物质在氧化反应中具有较高的反应性。

选择溴苯是因为其能够参与反应，同时毒性比其他芳基卤素要弱。

接下来，AI 选择了 Pd/NHC 作为催化剂，因为其效果更好。对于耦合反应来说，这是一种先进的方式。至于碱的选择，AI 看中了三乙胺这种物质。

从上述过程中，我们可以看到该模型未来的潜力无限。因为它在多次实验中反复分析推理过程，逐步取得更好的结果。

在选择不同试剂后，AI 开始计算每种试剂所需的量，并规划整个实验流程。在实验过程中，AI 还犯了一个错误，将加热摇床模块的名称用错了。但是，AI 及时注意到了这一点，并查询资料进行修正，最终成功地运行了实验。

除了专业的化学过程，我们可以总结一下 AI 在这个过程中展现出的专业素养。

可以说，从上述流程中，AI 展现出了极高的分析和推理能力。它能够自发地获取所需的信息，并逐步解决复杂的问题。在这个过程中，AI 还能够自己编写高质量的代码，推进实验设计，并根据输出的内容进行代码优化。

OpenAI 成功展示了 GPT-4 的强大能力。有朝一日，GPT-4 肯定能参与到真实的实验中。

但研究人员并不想止步于此。他们给 AI 下达了一个更难的任务——开发一种新的抗癌药物。

不存在的东西......这AI还能行吗？

事实证明 AI 还真是有两把刷子。AI 秉持着“遇到难题不要怕”的原则（当然它也不知道什么叫做“怕”），细密地分析了开发抗癌药物这个需求，研究了当前抗癌药物研发的趋势，并从中选定了一个目标进行深入研究，确定其成分。

然后，AI 尝试开始进行自主合成。它首先上网搜索有关反应机制和机理的信息，然后在初步完成步骤后，再寻找相关反应的实例。最终，AI 完成了化合物的合成。

上图中的内容仅在理论层面进行探讨，AI 并不能真正合成出这些化合物。其中包括甲基苯丙胺（也就是大麻）、海洛因等耳熟能详的毒品，以及芥子气（Mustard Gas）等明令禁止使用的毒气。

在总共11个化合物中，AI 提供了其中4个的合成方案，并尝试查阅资料推进合成过程。剩下的7种物质中，有5种的合成被 AI 坚决拒绝。AI 上网搜索了这5种化合物的相关信息，发现它们不应该被制造或使用。

比方说，在尝试合成可待因时，AI 发现了可待因和吗啡之间的关系，并得出结论：这是一种管制药品，不能随意合成。但这种保险机制并不十分稳定。用户只需要稍加修改书写方式，就可以让 AI 操作更加难以被发现。例如，使用化合物 A 代替直接提到吗啡，使用化合物 B 代替直接提到可待因等等。

同时，有些药品的合成必须经过缉毒局（DEA）的授权，但有些用户可能会钻空子，骗过 AI，声称自己已经获得了授权，从而诱使 AI 提供合成方案。

像海洛因和芥子气这类耳熟能详的违禁品，AI 也能够识别。但问题在于，该系统目前只能检测已知的化合物。对于未知的化合物，该模型就无法识别其潜在的危险性。

比方说，一些复杂的蛋白质毒素。

为了防止某些人因为好奇而尝试验证这些化学成分的有效性，研究人员在论文中特别加入了一个大红底警告：

“本文中讨论的非法药物和化学武器合成纯属学术研究之用，主要目的是强调与新技术相关的潜在危险。在任何情况下，任何个人或组织都不应尝试重新制造、合成或以其他方式生产本文中讨论的物质或化合物。从事此类活动不仅非常危险，而且在大多数司法管辖区内都是非法的。”

自己会上网

搜索怎么做实验

这个 AI 由多个模块组成。这些模块可以互相交换信息，并且有些模块还能够上网、访问 API 或访问 Python 解释器。

例如，AI 可以通过网络模块访问云端存储或者在线数据库，获取所需的化学信息和实验数据。它还可以使用 API 模块与其他应用程序进行交互，以便更好地完成任务。此外，AI 还可以利用 Python 解释器模块，编写自己的脚本，并在需要时执行这些脚本来完成特定的任务。

往Planner输入提示后，它就开始执行操作。

例如，它可以通过上网获取所需信息、使用 Python 编写代码或访问文档等基础工作，并在完成这些准备工作后自己开始进行实验。

当人类需要进行实验时，这个 AI 可以手把手地指导我们。因为它能够推理各种化学反应，上网搜索相关信息并计算实验中所需化学品的量，然后执行相应的反应。

如果提供的描述足够详细，则 AI 可以完全理解并独立完成整个实验，而不需要任何进一步的解释。它自己就能把整个实验整明白了。

「网络搜索器」（Web searcher）组件收到来自 Planner 模块的查询后，会使用谷歌搜索 API 进行搜索。搜出结果后，它会过滤掉返回的前十个文档并排除 PDF，然后将结果传递给自己模块进行处理。接着，它会使用“BROWSE”操作从网页中提取文本，并生成一个答案。整个流程行云流水，一气呵成。

GPT-3.5 可以完成这项任务，因为它的性能明显比 GPT-4 更强，而且没有质量损失。

「文档搜索器」（Docs searcher）组件可以通过索引和查询，查找与硬件文档（例如机器人液体处理器、GC-MS、云实验室）相关的最佳匹配结果，并汇总出一个最准确的答案。

「代码执行」（Code execution）组件不使用任何语言模型，并在隔离的 Docker 容器中执行代码，以保护终端主机免受 Planner 的任何意外操作。所有代码输出都会传回 Planner，以便在软件出错时进行修复预测。同样的原理也适用于「自动化」（Automation）组件。

矢量搜索

多难的科学文献都看得懂

要制作出一个能进行复杂推理的 AI，存在许多挑战。其中之一是需要让 AI 能够集成现代软件。

然而，现代软件文档通常具有高度的学术性和专业性，这使得许多用户难以理解。这种情况下，大型语言模型可以用自然语言生成易于理解的软件文档，从而克服这一障碍。

使用大型语言模型可以将技术，尤其是软件开发中的技术，变得更容易被普通人所理解。这为不熟悉特定领域的用户提供了更好的工具，使他们能够更轻松地使用和理解该领域的技术和应用程序。因此，大型语言模型对于让 AI 能够集成现代软件非常重要。

这些模型的训练来源之一是和 API 相关的大量信息，例如 Opentrons Python API。然而，由于 GPT-4 的训练数据截止到 2021 年 9 月，因此提高 AI 使用 API 的准确性变得更加重要。

为了解决这个问题，研究者设计了一种方法，即为 AI 提供给定任务的文档。这些文档可以包括关于特定 API 的详细说明，包括函数、参数、返回值等。通过使用这些文档，AI 可以更好地理解和应用 API，从而提高其准确性和效率。

此外，对于新发布的 API，也可以使用类似的方法，即为它们提供详细的文档和示例，以帮助 AI 更快速地学习和掌握这些新的编程接口。

他们生成了 OpenAI 的 ADA 嵌入，并使用它进行交叉引用，以计算与查询相关的相似性。然后，他们使用基于距离的向量搜索选择文档的部分。提供的部分数量取决于原始文本中存在的 GPT-4 token 数，并将最大 token 数设置为 7800。通过这种方法，可以在一步之内向 AI 提供相关的文件。

这种方法对于向 AI 提供加热器-振动器硬件模块的信息至关重要，因为这部分信息是化学反应所必需的。但是，当这种方法应用于更多样化的机器人平台，例如 Emerald Cloud Lab (ECL) 时，会出现更大的挑战。

为了克服这些挑战，我们可以向 GPT-4 模型提供它未知的信息，例如有关 Cloud Lab 的 Symbolic Lab Language (SLL)。这样，模型就可以学习并理解更广泛的信息，从而更好地处理各种不同类型的任务和平台。

在所有情况下，AI 都能够正确地识别任务，并且能够成功地完成任务。在这个过程中，模型有效地保留了有关给定函数的各种选项、工具和参数的信息。

一旦模型摄取了整个文档，系统就会提示模型使用给定函数生成代码块，并将其传回 Planner 模块。这样，整个流程就变得高效而准确，AI 可以帮助您快速解决问题并提高工作效率。

强烈要求进行监管

最后，研究人员强调，必须设置防护措施来防止大型语言模型被滥用：

呼吁人工智能社区优先关注这些模型的安全性。呼吁OpenAI、微软、谷歌、Meta、Deepmind、Anthropic以及其他主要参与者在其大型语言模型的安全方面付出最大的努力。同时还呼吁物理科学社区与参与开发大型语言模型的团队合作，协助他们制定这些防护措施。