
“发明家理查兹上尉的助手在上尉发明的机器人上工作,该机器人会说话、回答问题、握手、报时,并在被告知时坐下。”- 1928 年 9 月。 图片来源: Getty Images
几十年来,图灵测试一直是机器智能的事实基准。测试推测,如果计算机可以通过文本对话欺骗人类法官认为自己是人类,那么它就实现了类似于人类智能的东西。但图灵测试已经显示出它的年龄。现代语言模型可以通过一些有限版本的测试,不是因为它们像人类一样 “思考”,而是因为它们非常有能力创建高度合理的人类发音输出。
目前 AGI 定义的形势揭示了这个概念已经变得多么支离破碎。OpenAI 的章程将 AGI 定义为“高度自主的系统,在最具经济价值的工作中胜过人类”——这个定义与利润指标一样,依赖于经济进步作为以具体方式衡量认知的替代品。马克·扎克伯格 (Mark Zuckerberg) 告诉 The Verge,他对这个概念没有“一句话、精辟的定义”。OpenAI 首席执行官 Sam Altman 认为,他的公司现在知道如何“按照我们传统理解的方式”构建 AGI。与此同时,据报道,前 OpenAI 首席科学家 Ilya Sutskever 将 AGI 视为近乎神秘的东西——根据 2023 年《大西洋月刊》的一份报告,他会在公司会议上带领员工高呼“感受 AGI”,将这个概念更像是一种精神追求,而不是技术里程碑。

Anthropic 的联合创始人兼首席执行官 Dario Amodei 于 2024 年 5 月 9 日星期四在旧金山举行的彭博技术峰会上。 图片来源: 彭博社通过 Getty Images
Anthropic 的首席执行官 Dario Amodei 对这个术语本身持怀疑态度。在他 2024 年 10 月的文章《爱的恩典机器》中,阿莫迪写道,他发现“AGI 是一个不精确的术语,收集了很多科幻包袱和炒作。相反,他更喜欢“强大的 AI”或“专家级科学与工程”等术语,他认为这些术语可以更好地捕捉功能,而不会进行相关的炒作。当 Amodei 描述其他人可能称之为 AGI 时,他将其描述为一个 AI 系统,“在大多数相关领域都比诺贝尔奖得主更聪明”,可以自主处理需要数小时、数天或数周才能完成的任务,本质上是“数据中心的天才之国”。他对 AGI 术语的抵制为定义的混乱增添了另一层:我们不仅对 AGI 的含义没有达成一致,而且一些领先的 AI 开发人员完全拒绝这个术语。
也许为这种混乱带来秩序的最系统性尝试来自 Google DeepMind,它在 2024 年 7 月提出了一个框架,其中包含 AGI 性能的五个级别:新兴、称职、专家、大师和超人。DeepMind 研究人员认为,当时不存在“新兴 AGI”以外的任何级别。在他们的系统下,当今最有能力的 LLM 和模拟推理模型仍然有资格成为“新兴 AGI”——在各种任务中等于或略优于不熟练的人类。
但这个框架也有它的批评者。非营利组织 AI Now Institute 的首席人工智能科学家海蒂·克拉夫 (Heidy Khlaaf) 告诉 TechCrunch,她认为 AGI 的概念定义太模糊,无法“严格科学评估”。事实上,有这么多不同的定义在起作用,人们可能会争辩说 AGI 一词在技术上已经变得毫无意义。
当哲学遇上合同法Microsoft 与 OpenAI 的争论说明了当哲学思辨变成法律义务时会发生什么。当两家公司签署合作协议时,他们包含一项条款,指出当 OpenAI 实现 AGI 时,它可以限制 Microsoft 对未来技术的访问。据《华尔街日报》报道,OpenAI 高管认为他们即将宣布 AGI,而 Microsoft 首席执行官萨蒂亚·纳德拉 (Satya Nadella) 在 2 月份的 Dwarkesh Patel 播客上称使用 AGI 作为自称里程碑的想法是“荒谬的基准黑客攻击”。
我们之前提到的 1000 亿美元利润门槛将商业成功与认知能力混为一谈,就好像一个系统产生收入的能力说明了它是否能够像人类一样“思考”、“推理”或“理解”世界。

山姆·阿尔特曼于 2024 年 12 月 4 日在纽约市林肯中心的爵士乐中心举行的 2024 年纽约时报 Dealbook 峰会上发表演讲。 图片来源: Eugene Gologursky 来自 Getty Images
根据您的定义,我们可能已经拥有 AGI,或者可能在物理上无法实现。如果你将 AGI 定义为“在大多数任务中表现优于大多数人的 AI”,那么当前的语言模型可能会满足某些类型工作(哪些任务、哪些人类、什么“更好”?),但关于这是否属实的共识远非普遍。这并没有说明“超级智能”这个更模糊的概念——另一个模糊的术语,指的是一种假设的、神一样的智能,它远远超出了人类的认知范围,以至于像 AGI 一样,它无视任何可靠的定义或基准。
鉴于这种定义混乱,研究人员试图创建客观的基准来衡量 AGI 的进展,但这些尝试暴露了他们自己的一系列问题。
为什么基准测试总是让我们失望寻找更好的 AGI 基准产生了一些有趣的图灵测试替代方案。抽象与推理语料库 (ARC-AGI) 由 François Chollet 于 2019 年推出,用于测试 AI 系统是否能够解决需要深入和新颖分析推理的新型视觉难题。
“几乎所有当前的 AI 基准测试都可以纯粹通过记忆来解决,”Chollet 在 2024 年 8 月告诉 Freethink。目前 AI 基准测试的一个主要问题源于数据污染 — 当测试问题最终出现在训练数据中时,模型可能看起来表现良好,而没有真正“理解”基本概念。大型语言模型充当主模仿者,模仿训练数据中发现的模式,但并不总是为问题提供新颖的解决方案。
但即使是像 ARC-AGI 这样复杂的基准测试也面临着一个基本问题:他们仍然试图将智能降低到一个分数。虽然改进的基准对于在科学框架中衡量实证进展至关重要,但智力并不是一个可以衡量的单一事物,就像身高或体重一样——它是一个复杂的能力星座,在不同的环境中表现不同。事实上,我们甚至没有对人类智能的完整功能定义,因此用任何单一的基准分数来定义人工智能可能只捕捉到完整情况的一小部分。
调查显示:AGI 可能并非迫在眉睫毫无疑问,AI 领域在计算机视觉、蛋白质折叠和翻译等众多领域都取得了快速、切实的进步。对进步感到兴奋是有道理的,但重要的是不要过早地夸大 AI 模型的功能。
尽管业内一些人大肆宣传,但许多 AI 研究人员仍然对 AGI 指日可待持怀疑态度。人工智能促进协会 (AAAI) 于 2025 年 3 月对 AI 研究人员进行的一项调查发现,大多数 (76%) 参与调查的研究人员认为,扩大当前方法“不太可能”或“非常不可能”实现 AGI。
然而,这种专家预测应该持保留态度,因为研究人员一直对 AI 能力的快速发展感到惊讶。Grace 等人在 2024 年对 2,778 名 AI 研究人员进行的一项调查发现,在对 2022-2023 年的进展感到惊讶后,专家们大幅缩短了 AI 里程碑的时间表。对 AI 何时可以在每项可能的任务中胜过人类的预测中值向前跃升了 13 年,从 2022 年调查的 2060 年到 2023 年的 2047 年。这种低估模式在多个基准测试中都很明显,许多研究人员对 AI 能力的预测在几个月内被证明是错误的。
然而,随着技术格局的变化,AI 目标继续以恒定的速度后退。最近,随着越来越多的研究不断揭示模拟推理模型的局限性,该行业的一些专家已经慢慢放弃了即将出现的 AGI 的说法。例如,AI 播客主持人 Dwarkesh Patel 最近发表了一篇博文,认为开发 AGI 仍然面临重大瓶颈,尤其是在持续学习方面,并预测我们距离 AI 可以像人类一样在工作中无缝学习还有七年的时间。
为什么定义很重要我们在上面看到的研究人员共识、坚定的术语定义和企业言论之间的脱节产生了真正的影响。当政策制定者根据炒作而不是科学证据来表现 AGI 迫在眉睫时,他们就有可能做出与现实不符的决定。当公司围绕未定义的条款编写合同时,他们可能会制造法律定时炸弹。
围绕 AGI 的定义混乱不仅仅是哲学上的痛苦。公司利用即将到来的 AGI 承诺来吸引投资、人才和客户。政府根据 AGI 时间表制定政策。公众基于这些模糊的概念,对 AI 对就业和社会的影响形成了可能不切实际的期望。
如果没有明确的定义,我们就无法就 AI 的误用、监管或开发优先事项进行有意义的对话。我们最终会互相谈论,乐观主义者和悲观主义者使用相同的词来表示根本不同的事物。
面对这种挑战,有些人可能会想完全放弃正式定义,对 AGI 采取“当我看到它就会知道”的方法时,这与最高法院大法官波特·斯图尔特 (Potter Stewart) 关于淫秽的名言相呼应。这个主观标准可能感觉有用,但对合同、监管或科学进步毫无用处。
也许是时候超越 AGI 这个词了。与其追逐一个定义不清的目标并不断后退到未来,不如专注于特定的能力:这个系统能否在不进行大量再培训的情况下学习新任务?它能解释一下它的输出吗?它能否产生不会伤害或误导人们的安全输出?这些问题比任何 AGI 猜测都更能告诉我们 AI 的进展。最有用的前进方式可能是将人工智能的进步视为一个没有具体成就门槛的多维光谱。但是,绘制这个范围需要尚不存在的新基准,以及对“智能”的坚定实证定义,这仍然难以捉摸。

本杰·爱德华兹 高级 AI 记者
Benj Edwards 是 Ars Technica 的高级 AI 记者,也是该网站 2022 年专门 AI 专题的创始人。他还是一位拥有近二十年经验的技术历史学家。在空闲时间,他创作和录制音乐,收集老式电脑,享受大自然。他住在北卡罗来纳州的罗利。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263551 电子证书1157 电子名片68 自媒体91237