|
| 1 | +# 引入计算机使用功能、新款 Claude 3.5 Sonnet 和 Claude 3.5 Haiku |
| 2 | + |
| 3 | +## 0 前言 |
| 4 | + |
| 5 | +11 月 4 日:已调整 Claude 3.5 Haiku 的定价。该模型的输入费用为每百万 Tokens $1,输出费用为每百万 Tokens $5。* |
| 6 | + |
| 7 | +推出**升级版 Claude 3.5 Sonnet**及新模型 **Claude 3.5 Haiku**。升级后 Claude 3.5 Sonnet 尤其在编码能力显著提升,该领域一直是其优势。Claude 3.5 Haiku 表现达到先前最大模型 Claude 3 Opus 的水平,在许多评估表现出色,且速度与上代 Haiku 相当。 |
| 8 | + |
| 9 | +还推出创新功能 **计算机使用**,目前公测,开发者现可通过 [API](https://docs.anthropic.com/en/docs/build-with-claude/computer-use) 尝试。开发人员可像人类一样引导 Claude 使用计算机:查看屏幕、移动光标、点击按钮和输入文字。Claude 3.5 Sonnet 是首个在公测中提供计算机使用功能的前沿 AI 模型。此功能仍处[实验阶段](https://www.anthropic.com/news/developing-computer-use),操作可能略显繁琐且存在误差。提前发布该功能,以便获得开发者反馈,快速改进。 |
| 10 | + |
| 11 | +Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已开始探索该功能潜力,完成数十步甚至数百步任务。如Replit 利用 Claude 3.5 Sonnet 的计算机使用能力和界面导航功能,为其 Replit Agent 产品开发关键功能,以在应用构建过程中对其进行实时评估。 |
| 12 | + |
| 13 | +Claude 3.5 Sonnet 升级版现已向所有用户开放。今天起,开发人员可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 开始构建计算机使用的公测功能。全新 Claude 3.5 Haiku 将在本月晚时发布。 |
| 14 | + |
| 15 | + |
| 16 | + |
| 17 | +## 1 Claude 3.5 Sonnet:行业领先的软件工程能力 |
| 18 | + |
| 19 | +升级后 [Claude 3.5 Sonnet](https://www.anthropic.com/claude/sonnet) 在行业基准测试中表现出显著进步,尤其在智能编码和工具使用任务方面取得了强劲提升: |
| 20 | + |
| 21 | +- 编码领域,[SWE-bench Verified](https://www.swebench.com/) 得分从 33.4% 提至 49.0%,高于所有公开可用模型——包括推理模型如 OpenAI o1-preview 和一些专为智能编码设计的系统 |
| 22 | +- [TAU-bench](https://github.com/sierra-research/tau-bench) 零售领域智能工具使用任务得分从 62.6% 提到 69.2%,在更具挑战性航空领域得分从 36.0% 提至 46.0%。新 Claude 3.5 Sonnet 以与前代相同的价格和速度提供这些改进 |
| 23 | + |
| 24 | +早期客户反馈表明,升级后 Claude 3.5 Sonnet 在 AI 驱动编码方面取得显著进步: |
| 25 | + |
| 26 | +- GitLab 在其 DevSecOps 任务测试该模型,推理能力提升高达 10%(涵盖多个用例),且没增加延迟,使其成为支持多步骤软件开发流程的理想选择 |
| 27 | +- Cognition 使用新款 Claude 3.5 Sonnet 进行自主 AI 评估,发现其在编码、规划和解决问题方面相比前一版本显著提升。The Browser Company 在自动化基于网页的工作流中使用该模型,并指出 Claude 3.5 Sonnet 表现超越他们之前测试的所有模型 |
| 28 | + |
| 29 | +作为我们持续与外部专家合作的一部分,Claude 3.5 Sonnet 的新模型在部署前由美国 AI 安全研究所(US AISI)和英国安全研究所(UK AISI)进行了联合测试。 |
| 30 | + |
| 31 | +升级版 Claude 3.5 Sonnet 灾难性风险评估,符合[责任扩展政策](https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy)的 ASL-2 标准。 |
| 32 | + |
| 33 | +## 2 Claude 3.5 Haiku:性能与速度兼具的性价比之选 |
| 34 | + |
| 35 | +[Claude 3.5 Haiku](https://www.anthropic.com/claude/haiku),迄今最快的模型新一代产品。Claude 3.5 Haiku 保持与 Claude 3 Haiku 相似速度,但各项技能均提升,且在许多智能基准测试超越上代最大模型 Claude 3 Opus。Claude 3.5 Haiku 在编码任务尤为出色。如在 SWE-bench Verified 得分达 40.6%,超过许多基于现有最先进公开模型的智能体系统——包括最初 Claude 3.5 Sonnet 和 GPT-4o。 |
| 36 | + |
| 37 | +凭借低延迟、增强的指令遵循能力和更准确的工具使用,Claude 3.5 Haiku 特别适合面向用户的产品、专用子智能体任务以及从大量数据(如购买历史、价格或库存记录)中生成个性化体验。 |
| 38 | + |
| 39 | +Claude 3.5 Haiku 在本月晚时通过自有 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 推出,最初将仅支持文本输入,图像输入功能随后将陆续推出。 |
| 40 | + |
| 41 | +## 3 让 Claude 学会“使用”计算机,注重责任性 |
| 42 | + |
| 43 | +并未开发专门工具帮 Claude 完成特定任务,而是让它掌握*通用*计算机技能,使其使用一系列标准化工具和软件程序。开发者可用这种能力自动化重复性流程、[构建和测试软件](https://www.youtube.com/watch?v=vH2f7cjXjKI),以及[执行开放式任务,如研究](https://youtu.be/jqx18KgIzAE)。 |
| 44 | + |
| 45 | +为实现这些通用技能,我们构建了一个 API,使 Claude 能感知和操作计算机界面。开发者可集成该 API,让 Claude 将指令(如,“使用我计算机中的数据及在线信息填写此表单”)翻译为计算机指令(如检查电子表格;移动光标打开浏览器;导航至相关网页;用这些页面的数据填充表单等)。 |
| 46 | + |
| 47 | +在 [OSWorld](https://os-world.github.io/) 上——评估 AI 模型使用计算机能力的平台,Claude 3.5 Sonnet 在仅靠屏幕截图的类别得分 14.9%,显著优于次优 AI 系统 7.8% 的得分。当允许更多步骤完成任务时,Claude 的得分提升至 22.0%。 |
| 48 | + |
| 49 | +虽预计该功能在未来几月内快速改进,但 Claude 当前计算机使用能力仍存在局限性。某些人类轻松完成操作(如滚动、拖拽、缩放)对 Claude 仍具挑战,因此鼓励开发者从低风险任务开始探索。由于计算机使用可能为传统威胁(如垃圾信息、错误信息或欺诈)提供新途径,采取积极措施确保其安全部署。开发了新的分类器,能识别何时使用了计算机使用功能及是否存在潜在危害。可在[开发计算机使用](http://anthropic.com/news/developing-computer-use)文章中阅读关于这项新技能的研究过程以及安全措施的详细讨论。 |
| 50 | + |
| 51 | +## 4 开发计算机使用模型 |
| 52 | + |
| 53 | +Claude 现在可以使用计算机了。最新版 Claude 3.5 Sonnet通过适当的软件配置,可以按照用户的指令在计算机屏幕上移动光标、点击相关位置,并通过虚拟键盘输入信息,从而模拟人类与计算机交互的方式。 |
| 54 | + |
| 55 | +我们认为这项技能——目前处于公开测试阶段——代表了 AI 进步的一个重要突破。以下是我们在开发计算机使用模型以及确保其安全性方面的一些研究见解。 |
| 56 | + |
| 57 | +### 为什么要开发计算机使用功能? |
| 58 | + |
| 59 | + 为什么这项新功能重要?现代社会中大量的工作都是通过计算机完成的。使 AI 能够像人类一样直接与计算机软件交互,将解锁许多现有 AI 助手无法实现的应用。 |
| 60 | + |
| 61 | + 在过去几年中,AI 发展已经取得了许多重要里程碑,例如进行复杂逻辑推理的能力以及图像识别和理解的能力。下一个前沿是计算机使用:AI 模型不再需要通过定制工具进行交互,而是可以按照指示使用几乎任何软件。 |
| 62 | + |
| 63 | + ### 研究过程 |
| 64 | + |
| 65 | + 我们在工具使用和多模态方面的先前研究为新的计算机使用技能奠定了基础。操作计算机需要看懂并解释图像——在这种情况下,是计算机屏幕的图像。此外,还需要对屏幕上内容进行推理,决定何时以及如何执行具体操作。通过将这些能力结合起来,我们训练 Claude 理解屏幕上正在发生的事情,并利用可用的软件工具完成任务。 |
| 66 | + |
| 67 | + 当开发者让 Claude 使用某种计算机软件并给予必要的访问权限时,Claude 会查看用户可见的屏幕截图,然后计算光标需要垂直或水平移动多少像素,才能点击正确的位置。精确计算像素是训练的关键。如果缺乏这一能力,模型就难以发出鼠标操作指令——类似于模型常常难以处理像“单词‘banana’中有几个字母‘A’?”这样看似简单的问题。 |
| 68 | + |
| 69 | + 我们对 Claude 从仅仅几个简单软件(如计算器和文本编辑器)的训练中迅速概括能力感到惊讶(出于安全考虑,训练期间我们未允许模型访问互联网)。结合 Claude 的其他技能,这些训练使其能够将用户的书面提示词转化为逻辑步骤并在计算机上执行操作。我们还观察到,模型在遇到障碍时会自我纠正并重试任务。 |
| 70 | + |
| 71 | + 虽然在取得初步突破后随之而来的进展很快,但达到这一点花费了大量的试验和错误。一些研究人员指出,开发计算机使用功能非常接近他们刚进入 AI 领域时所设想的“理想化”研究过程:不断迭代并重复回到起点直到取得进展。 |
| 72 | + |
| 73 | + 研究取得了回报。目前,Claude 是使用计算机的 AI 模型中处于最先进水平的——即,通过观察屏幕并响应采取操作。在一个为测试开发者设计的 AI 使用计算机能力的评估测试 [OSWorld](https://os-world.github.io/) 中,Claude 的得分为 14.9%。虽然远未达到人类水平(通常为 70-75%),但它比同类模型中得分第二高的 7.7% 高出许多。 |
| 74 | + |
| 75 | + ### 确保计算机使用的安全性 |
| 76 | + |
| 77 | + 每一次 AI 的进步都会带来新的安全挑战。计算机使用主要是为了降低 AI 系统应用现有认知技能的门槛,而不是从根本上提升这些技能,因此我们的主要关注点集中在当前的潜在危害,而非未来的风险。我们通过评估计算机使用是否会增加《负责任扩展政策》(Responsible Scaling Policy) 中所述的前沿威胁风险来确认这一点。研究结果表明,包括新计算机使用技能的更新版 Claude 3.5 Sonnet 仍处于 AI 安全等级 2——即,不需要比我们目前采取的安全和安保措施更高的标准。 |
| 78 | + |
| 79 | + 当未来的模型因存在灾难性风险而需要 AI 安全等级 3 或 4 的保护措施时,计算机使用可能会加剧这些风险。因此,我们判断,现在引入计算机使用功能——在模型仍只需要 AI 安全等级 2 的保护措施时——可能是更好的选择。这样,我们可以在风险尚未过高之前开始应对任何安全问题,而不是等到模型具备更严重风险时才首次引入计算机使用能力。 |
| 80 | + |
| 81 | + 本着这一精神,我们的信任与安全团队对新的计算机使用模型进行了广泛分析,以识别潜在漏洞。他们发现的一个关注点是“提示注入”——一种网络攻击类型,攻击者向 AI 模型提供恶意指令,导致其覆盖原有指令或执行偏离用户初衷的意图外操作。由于 Claude 能够解释连接互联网的计算机的屏幕截图,它可能会接触到包含提示注入攻击的内容。 |
| 82 | + |
| 83 | + 使用公开测试版 Claude 计算机使用功能的用户应采取相关预防措施,以尽量降低这些风险。作为开发者的参考资源,我们在 [参考实现](https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo) 中提供了更多指导。 |
| 84 | + |
| 85 | + 与任何 AI 功能一样,Claude 的计算机技能也可能被用户故意滥用。我们的团队开发了分类器和其他方法,用于标记和缓解此类滥用行为。鉴于即将到来的美国大选,我们特别警惕可能被认为削弱公众对选举过程信任的滥用企图。尽管计算机使用能力尚未足够先进,也不具备以现有技术实现的规模构成相对更高的风险,但我们已经采取措施来监控 Claude 处理选举相关活动的请求,同时引导 Claude 避免进行如生成并发布社交媒体内容、注册网络域名或访问政府网站等活动。我们将持续评估并改进这些安全措施,以平衡 Claude 的能力与公开测试期间的责任使用。 |
| 86 | + |
| 87 | + 一如既往,遵循我们的数据隐私标准,默认情况下,我们不会将用户提交的数据,包括 Claude 接收到的任何屏幕截图,用于训练我们的生成式 AI 模型。 |
| 88 | + |
| 89 | + ### 计算机使用的未来 |
| 90 | + |
| 91 | +计算机使用是一种完全不同的 AI 开发方法。到目前为止,大语言模型的开发者一直是“让工具适应模型”,通过定制环境让 AI 使用专门设计的工具完成各种任务。现在,我们可以“让模型适应工具”——Claude 能够适应我们日常使用的计算机环境。我们的目标是让 Claude 使用现有的计算机软件,就像人类一样。 |
| 92 | + |
| 93 | +还有很多工作需要完成。尽管 Claude 是当前最先进的技术,但它的计算机使用能力仍然缓慢且容易出错。人们日常使用计算机时经常执行的许多操作(如拖动、缩放等),Claude 目前还无法完成。由于 Claude 以“翻页式”的方式查看屏幕——逐帧获取屏幕截图并拼接,而不是观察更细粒度的视频流——它可能会错过短暂的动作或通知。 |
| 94 | + |
| 95 | +即使录制今天发布的计算机使用演示时,也遇到一些[有趣的错误](https://x.com/AnthropicAI/status/1848742761278611504)。如一个案例中,Claude 意外点击停止了一个长期运行的屏幕录制,导致所有录制内容丢失。另一案例中,Claude 突然从我们的代码演示中“脱离”,开始浏览黄石国家公园的照片。 |
| 96 | + |
| 97 | +我们预计,计算机使用能力将迅速改进,变得更快、更可靠,更适合用户希望完成的任务。那些缺乏软件开发经验的用户,这项功能实现也会更简单。在每个阶段,我们的研究人员都将与安全团队密切合作,确保 Claude 新功能始终伴随适当安全措施。 |
| 98 | + |
| 99 | +## 4 展望 |
| 100 | + |
| 101 | +通过该技术的初步部署,我们将更好地理解这一技术的潜力,以及越来越强大的 AI 系统所带来的深远影响。 |
0 commit comments