硬刚DeepSeek、o3,双思维模型Claude 3.7 Sonnet来了
硬刚DeepSeek、o3,双思维模型Claude 3.7 Sonnet来了
今天凌晨 2 点,人工智能公司 Anthropic 推出了首个双思维模型 ——Claude 3.7 Sonnet。
官方宣称,此款模型是有史以来 “最智能” 的 AI 模型,专注于应对更为复杂的问题,在数学和编码等领域的表现相较于以往有了显著提升。
Claude 3.7 具备标准和扩展两种思考模式。
-
标准思考模式能迅速作答,无需复杂推理,比如用户问 “巴黎的埃菲尔铁塔有多高”,它会马上回答 324 米。
-
扩展思维模式则会展现详细的推理思维链,呈现复杂的推理过程,便于用户清晰了解模型是如何逐步分析问题、运用逻辑的,特别适用于数学、生物等科研领域,还能通过 API 精准掌控模型的思考时长。
从 SWE Bench 测试数据来看,Claude 3.7 在代码能力上大幅超越了 DeepSeek - R1、OpenAI 的 o1、o3 模型,在 MMMLU、Math500 等方面也有出色表现。此外,Anthropic 还发布了专用于代码的 Agent ——Claude Code。
扩展思维模式简介
Claude 3.7 的扩展思考模式旨在模拟人类思考。 面对复杂问题,人类通常会通过逐步分析、逻辑推理和验证来得出结论。该模式允许模型在给出最终答案前,进行一系列推理步骤深入思考问题。
在技术层面,扩展思考模式主要依靠强化学习训练模型,促使其生成一系列推理步骤。 这些步骤被整合在一个 “思考过程” 文本块中,用户能在模型给出最终答案前查看这些推理步骤。
扩展思考模式对 Claude 3.7 Sonnet 的推理能力提升显著。 以解决复杂数学问题为例,其准确率在该模式下远高于标准思考模式。在逻辑推理和复杂分析任务中的表现也大幅提升。
这种性能提升不仅体现在最终答案上,还体现在推理过程的质量上。模型能生成更详细、准确的推理步骤,助力用户更好地理解问题解决方法。这种透明的推理过程既增强了用户对模型输出的信任,又为开发者优化模型提供了依据。
**另外,扩展思考模式的透明性还能为模型安全性提供保障。**开发者可通过监控模型的推理过程,及时发现潜在风险并采取措施。比如,若模型在推理过程中出现异常行为,开发者能及时干预,防止其生成有害内容。
针对安全性、安全性和可靠性进行了广泛的模型测试。
借助 Claude 3.7 Sonnet,与前身相比,将不必要的拒绝减少了 45%。
Claude Code
Claude Code 支持全自动化代码开发,涵盖搜索和读取代码,能帮开发者快速定位和理解项目中的代码逻辑。
例如,开发者想了解用户登录功能的实现逻辑时,Claude Code 能迅速扫描整个代码库,精准找到与用户登录相关的代码文件和关键代码段,并通过分析代码中的注释、函数命名和调用关系,助力开发者快速理解这部分代码逻辑。
另外功能如下:
- 编辑文件,无论是修改现有代码还是添加新功能
- 可编写并运行测试,及时发现代码潜在问题
- 将代码提交并推送到 GitHub,方便开发者进行版本管理
目前,Claude Code 仍处于预览阶段,但在测试驱动开发、调试复杂问题以及大规模重构等方面,已在 Anthropic 内部成为重要开发工具。 早期测试中,Claude Code 表现优异,能一次性完成通常需 45 分钟以上手动代码任务,极大缩短了开发时间,降低了开发成本。
当下,Claude 3.7 Sonnet 已在包括免费版、专业版、团队版和企业版的所有套餐中上线,支持 Anthropic API、亚马逊 Bedrock 和谷歌云 Vertex AI 平台,更多升级教程可查看往期文章👇
除免费版外,其他版本均配备扩展思考模式。在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与之前版本相同,输入每百万 token 收费 3 美元,输出(含思考 token)每百万 token 收费 15 美元。
如果你觉得升级费用暂时承担不起,也可以看看ChatGPT&Claude镜像站,包含全网AI模型,1:1还原,价格会比官方便宜很多很多,对话次数不受限制👇
ChatGPT4.0账号被封了怎么办?gpt4怎么买更便宜?先试试这个国内最新替代镜像站吧
👉为了方便打破彼此AI信息差,打造AI学习社群,我建了一个AI学习交流群(内附AI资料),感兴趣的可以私信公众号后台,回复"进群",我拉你进群!!!
最后感谢大家能够看到文章的最后,如果你觉得这篇文章对你有启发或者帮助,不妨点个关注,你的支持将是我最大的动力,谢谢!