币币情报道:
周四,OpenAI和Anthropic在各自产品线中相隔不到一小时的时间里相继发布了新的旗舰级AI模型,凸显了领先开发商之间为主导企业软件和高级编码工具而展开的激烈竞争。
Anthropic发布了Claude Opus 4.6,并大力宣传其在长上下文推理和基于代理的工作流程方面的进步;而OpenAI随后不久发布了GPT-5.3 Codex,这是一个针对代理编码和软件开发进行优化的模型。
几乎同时推出的产品凸显了竞争对手迭代速度之快,各公司都在竞相与大型企业客户签订长期合同。
基准测试结果表明,这两个模型针对不同的强度进行了优化。
根据两家公司公布的数据,Claude Opus 4.6在与法律和金融推理相关的任务中表现更佳,而GPT-5.3 Codex在智能编码测试和效率指标方面表现更优。
投资者重新评估传统软件供应商的前景之际,这些消息传出,多家信息和专业服务公司的股价本周下跌。在担忧之中人工智能原生平台可能会削弱对现有企业工具的需求。
Anthropic说Claude Opus 4.6在长上下文推理和专业任务方面取得了进步,引用了100万个标记的上下文窗口和MRCR v2(复杂信息检索的基准)76%的得分。
该公司表示,该模型在财务和法律任务方面也优于早期版本,并引入了“代理团队”,允许多个AI代理并行处理编码和文档。
OpenAI发布GPT-5.3 Codex随后发布,将其定位为针对智能体编码和研究而优化的模型。
OpenAI表示,Codex在Terminal-Bench 2.0(一项智能体编码基准测试)中获得了77.3%的分数,而Claude Opus 4.6的分数为65.4%,并且Codex完成任务的速度更快,使用的令牌更少。
OpenAI还表示,Codex的早期版本曾被内部用于帮助调试训练和管理部署,这标志着模型首次在加速自身发展方面发挥了直接作用。
综合来看,结果表明两种模型均不占绝对优势,性能优势取决于企业是优先考虑专业推理还是自主软件开发。
预计谷歌也将在未来几个月内推出其Gemini模型的更新,而包括DeepSeek在内的其他人工智能开发商也在准备发布新版本,这加剧了该领域的竞争。
不过,仅凭基准测试结果不太可能决定市场领导地位,因为更广泛的采用和企业部署正在日益塑造竞争格局。
随着竞争的持续加剧,基于智能体的工作流程能否成为经济活动的核心组成部分,时间会给出答案。OpenAI和Anthropic显然对此寄予厚望。