当前位置: > hg0088体育站 >

最强模特转手！ Claude Opus 4.5 发布，编码测试超越 Anthropic

来源：未知日期：2025-11-25 10:27 浏览()

最强机型易手，Claude Opus 4.5上线！ Anthropic 称其为世界上最适合计算机编程、代理和操作的模型。它不仅更加智能、更加高效，在深度研究、PPT处理和电子表格等日常任务方面也取得了显着的改进。一句话简介：Opus 4.5是AI能力的一次飞跃，预示着未来工作方式的改变。现在可以使用了。开发者：通过 API 调用 Claude-Opus-4-5-20251101 价格：输入输出 25（每百万代币）平台：涵盖自己的应用程序、API 和订阅用户（最大和高级团队）的三个主要云平台，人为删除了用户在日常工作中可以使用 OPUS 特定的限制。 Opus 4.5 核心亮点概览：碾压编程技能：在内部入职测试中，分数超过了所有人类候选人。更聪明：能够“曲线救国”，解决复杂问题（比如通过升舱更改不可改签的机票）。更经济：引入“努力程度”控制，在中等设置下比Sonnet 4.5节省76％的令牌，并且性能相同。价格确实不错：API价格定为25（每百万代币），价格仅为原来Opus 4.1的1/3。 Programming Skills: Beyond human candidates. Anthropic为Opus 4.5安排了一场“硬仗”。众所周知的工程入门笔试的高难度表现的结果是这样写的：在规定的2个或当时的时间内，克劳德·奥普斯4.5的得分高于任何以前的人类考生。虽然这并不一定意味着它具有协作和沟通能力，但人工智能在技术能力和抗压判断方面已经领先。在实际体验中，测试人员的反馈高度一致：OPUS 4.5可以处理歧义问题并权衡利弊，而无需亲自指导。面对complex多系统bug，它可以独立查找修复。几周前 Sonnet 4.5 几乎不可能完成的任务现在可以由 Opus 4.5 完成。 “钻空子”也是一种智慧。在评估智能体能力的τ-bench基准测试中，OPUS 4.5表现出了惊人的灵活性。测试场景是：比劳一家航空公司的客服，帮助一位心烦意乱的顾客改签机票。规则是基础经济不能改变，大多数模型会直接拒绝它。但Opus 4.5找到了以下解决方案：先升级客户，然后更改航班。虽然基准判断它是失败的（因为它没有按预期下降），但它是人们所期望的创造性解决问题的能力。同时，Anthropic也加强了安全测试。类行为约束阻止模型利用规则来实现目标。引入“努力程度”控制：效率提高 76%。型号g吗更强大，这通常意味着更昂贵和更慢？ Opus 4.5 提供了一个新的解决方案。开发者现在可以通过 API 中的工作量参数来平衡时间、成本和性能：中等工作量：在 Verified SWE-Bench 列表中，OPUS 4.5 达到了 Sonnet 4.5 的最高分，但输出代币减少了 76%。高努力：性能比 Sonnet 4.5 高 4.3 个百分点，同时代币消耗仍然减少。 48% 与上下文压缩和高级工具配合使用，OPUS 4.5 可以运行更长时间、做更多事情，并且需要更少的手动干预。全家桶更新：Excel、Chrome均可使用。随着OPUS 4.5的发布，Claude开发者平台和消费者应用程序也得到了全面升级：Claude代码：添加了计划代码，在实施之前会要求明确的需求并生成可编辑的计划文件。桌面版本支持并行运行多个会话（例如修复错误的一个会话和一个用于修复错误的会话）其他用于检查信息）。 Claude for Excel：BETA 版本现在可供所有 Max、Team 和 Enterprise 用户使用 Claude for Chrome：Max 用户现在可以使用它跨选项卡处理任务。接入长对话：Claude App会自动总结早期上下文，长对话不再碰壁。最后也是最重要的一点记得??我，对我很重要，每天更新：一键连三个链接，欢迎转发、推荐和评论，别忘了关注我特别声明：以上内容（包括图片或视频）由自助媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。注：以上内容（包括图片和视频，如有）由网易HAO用户上传发布，网易HAO为社交媒体平台，仅提供信息存储服务。

分享到

上汽大众产品系列发布上汽奥迪推出新车

阿森纳vs森林记录：103个历史匹配阿森纳赢得53胜，得分161球

特朗普出现在美国公开赛决赛中，在致敬期间被嘘，并被拍摄为“服

美国允许Tiktok继续在美国运营。外交部：中国的立场很明确

曼联坚持认为这次阿莫林将不会被删除！三位新教练中的受欢迎人数