当前位置: > hg0088体育站 >

最强模特转手! Claude Opus 4.5 发布,编码测试超越 Anthropic

发布者:365bet体育投注
来源:未知 日期:2025-11-25 10:27 浏览()
最强机型易手,Claude Opus 4.5上线! Anthropic 称其为世界上最适合计算机编程、代理和操作的模型。它不仅更加智能、更加高效,在深度研究、PPT处理和电子表格等日常任务方面也取得了显着的改进。一句话简介:Opus 4.5是AI能力的一次飞跃,预示着未来工作方式的改变。现在可以使用了。开发者:通过 API 调用 Claude-Opus-4-5-20251101 价格:输入输出 25(每百万代币) 平台:涵盖自己的应用程序、API 和订阅用户(最大和高级团队)的三个主要云平台,人为删除了用户在日常工作中可以使用 OPUS 特定的限制。 Opus 4.5 核心亮点概览: 碾压编程技能:在内部入职测试中,分数超过了所有人类候选人。更聪明:能够“曲线救国”,解决复杂问题(比如通过升舱更改不可改签的机票)。更经济:引入“努力程度”控制,在中等设置下比Sonnet 4.5节省76%的令牌,并且性能相同。价格确实不错:API价格定为25(每百万代币),价格仅为原来Opus 4.1的1/3。 Programming Skills: Beyond human candidates. Anthropic为Opus 4.5安排了一场“硬仗”。众所周知的工程入门笔试的高难度表现的结果是这样写的:在规定的2个或当时的时间内,克劳德·奥普斯4.5的得分高于任何以前的人类考生。虽然这并不一定意味着它具有协作和沟通能力,但人工智能在技术能力和抗压判断方面已经领先。在实际体验中,测试人员的反馈高度一致:OPUS 4.5可以处理歧义问题并权衡利弊,而无需亲自指导。面对complex多系统bug,它可以独立查找修复。几周前 Sonnet 4.5 几乎不可能完成的任务现在可以由 Opus 4.5 完成。 “钻空子”也是一种智慧。在评估智能体能力的τ-bench基准测试中,OPUS 4.5表现出了惊人的灵活性。测试场景是:比劳一家航空公司的客服,帮助一位心烦意乱的顾客改签机票。规则是基础经济不能改变,大多数模型会直接拒绝它。但Opus 4.5找到了以下解决方案:先升级客户,然后更改航班。虽然基准判断它是失败的(因为它没有按预期下降),但它是人们所期望的创造性解决问题的能力。同时,Anthropic也加强了安全测试。类行为约束阻止模型利用规则来实现目标。引入“努力程度”控制:效率提高 76%。型号g吗更强大,这通常意味着更昂贵和更慢? Opus 4.5 提供了一个新的解决方案。开发者现在可以通过 API 中的工作量参数来平衡时间、成本和性能: 中等工作量:在 Verified SWE-Bench 列表中,OPUS 4.5 达到了 Sonnet 4.5 的最高分,但输出代币减少了 76%。高努力:性能比 Sonnet 4.5 高 4.3 个百分点,同时代币消耗仍然减少。 48% 与上下文压缩和高级工具配合使用,OPUS 4.5 可以运行更长时间、做更多事情,并且需要更少的手动干预。全家桶更新:Excel、Chrome均可使用。随着OPUS 4.5的发布,Claude开发者平台和消费者应用程序也得到了全面升级:Claude代码:添加了计划代码,在实施之前会要求明确的需求并生成可编辑的计划文件。桌面版本支持并行运行多个会话(例如修复错误的一个会话和一个用于修复错误的会话)其他用于检查信息)。 Claude for Excel:BETA 版本现在可供所有 Max、Team 和 Enterprise 用户使用 Claude for Chrome:Max 用户现在可以使用它跨选项卡处理任务。接入长对话:Claude App会自动总结早期上下文,长对话不再碰壁。最后也是最重要的一点记得??我,对我很重要,每天更新:一键连三个链接,欢迎转发、推荐和评论,别忘了关注我 特别声明:以上内容(包括图片或视频)由自助媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
分享到