探花七天 o3和o4-mini来了！OpenAI冲突最强“看图念念考”，开源AI编程神器，史上最大收购曝光

发布日期：2025-04-17 15:37 点击次数：193

智东西

编译 | 程茜

裁剪 | 云鹏

智东西4月17日报说念，本日凌晨，OpenAI重磅发布两大视觉推理模子OpenAI o3和o4-mini，这亦然OpenAI o系列中初次不错使用图像进行念念维链推理的模子。OpenAI还开源了轻量级编程Agent Codex CLI，发布不到7个小时，Star数已超5500。

这两个模子的区别在于，OpenAI o3是最弘大的推理模子；OpenAI o4-mini是一个针对快速、老本效益推理进行优化的较小模子。新模子初次将图像融入念念维链过程，还能自主调用用具，在一分钟内生成谜底。

OpenAI开源的编程Agent Codex CLI能最大化模子推理才气，可在端侧部署。本日OpenAI还在AI编程范畴曝出重磅收购交游。据外媒报说念，OpenAI正在洽谈以30亿好意思元（约合东说念主民币219亿元）收购AI辅助编程用具Windsurf（前身为Codeium），这将是OpenAI迄今范畴最大的一笔收购。

今天起，ChatGPT Plus、Pro和Team用户今天起不错使用o3、o4-mini和o4-mini-high，这些模子会取代o1、o3-mini和o3－mini－high。ChatGPT企业和教育将在一周后取得旁观权限。免用度户不错在提交查询前采用“念念考”来尝试o4-mini。OpenAI展望在几周内发布OpenAI o3-pro，并配备完竣用具援手。现在Pro用户仍可旁观o1-pro。o3和o4-mini通过Chat Completions API和Responses API向开导者洞开。

OpenAI集聚创举东说念主兼CEO Sam Altman在酬酢平台X上发文盛赞o3、o4-mini是“天才水平”。

正在被OpenAI洽谈收购的Windsurf，郑重称呼为Exafunction Inc.，配置于2021年，已筹集朝上2亿好意思元的风险投资资金，估值30亿好意思元，近期与其洽谈融资事宜还包括Kleiner Perkins和General Catalyst在内的投资者。前年11月，Windsurf发布了公共首个智能体IDE。

▲Windsurf发布公共首个智能体IDE（Agentic IDE）

近期AI编程创企融资火爆，Cursor背后的初创公司Anysphere在本年早些时候与投资者洽谈以近100亿好意思元（约合东说念主民币731亿元）的估值取得新融资。

此前OpenAI曾收购过向量数据库公司Rockset和辛勤互助平台Multi。若是收购Windsurf的新友游完成，OpenAI将进一步补充AI编程助手实力，与Anthropic、微软旗下Github、Anysphere等著明AI编程公司伸开更顺利的竞争。

交游条件尚未敲定，谈判仍有可能发生变化。

一、用图像念念考，手绘草图、倒置笔墨齐能处理

o3和o4-mini模子不错顺利将图像整合到念念维链中，用图像来进行念念考，何况其还会被教师推理在什么技术点使用哪种用具。

具体来看，模子不错解读东说念主们上传的白板相片、教科书图表或手绘草图，若是图像弄脏、倒置，模子也能借助用具及时操作图像，如进行旋转、缩放或变换等，或者与Python数据分析、相聚搜索、图像生成等用具协同责任，这些齐是模子推理过程的一部分。

如用户上传一张唾手拍的图片，不错斟酌模子图片“最大船只的名字、在那边靠岸”等问题。

举例在使用内置文件处理沿路数学难题时，OpenAI o3不错在不使用搜索的情况下给出正确谜底，o1则无法提供正确反映。

濒临匡助用户“网罗区域旅行数据、经济统计数据和栈房入住率，病直不雅分析趋势并保举梦想的蔓延场地”这一复杂问题时，OpenAI o3的成果援用了更多与行业有关的来源，并建议了详备筹画，同期预测实践全国的挑战并提供主动的缓解步履。比拟之下，01的成果更为平淡。

在阐述用户上传的一张“手握节目单”相片进行分析后，OpenAI o3或者准确研究日程安排并输出可用的筹画，而o1存在不准确之处，某些节目技术造作。

模子或者阐述遭遇的信息作念出反应和调理，举例，它们不错在搜索提供商的匡助下屡次搜索相聚、稽查成果，并在需要更多信息时尝试新的搜索。这使得模子不错处理需要旁观超出模子内置学问、扩展推理、详尽和跨模态输出最新信息的任务。

二、多模态任务大幅优于前代模子，视觉推理准确率高达97.5%

在老本和性能方面，OpenAI展望关于大遍及骨子利用，o3和o4-mini分离将比o1和o3-mini更智能且更低廉。

o4-mini和o3-mini在老本和性能方面的对比：

o3和o1在老本和性能方面的对比：

OpenAI在一系列东说念主类考研和机器学习基准测试中测试了OpenAI o3和o4-mini，其成果自大，这些新的视觉推理模子在扫数测试的多模态任务上齐显贵优于前代模子。

其中，无需浏览的图像念念维险些在其扫数评估的感知基准测试中均取得了显贵进步。OpenAI o3和o4-mini在STEM问答（MMMU、MathVista）、图表阅读和推理（CharXiv）、感知原语（VLMs are Blind）和视觉搜索（V*）方面均达到了新的开始进性能。在V*上，新模子的视觉推理方法达到了95.7%的准确率。

o3在分析图像、图表和图形等视觉任务上进展更好。外部大家的评估中，o3在贫寒、实践全国的任务上比OpenAI o1少犯20%的要紧造作。早期测试者强调了其在生物学、数学和工程配景平分析严谨性问题的才气，以及不错生成和批判性地评估新颖假定的才气。

在大家评估中，o4-mini在非STEM任务以及数据科学等范畴进展朝上o3-mini。且o4-mini援手比o3高得多的使用限度，具备高容量、高婉曲量的上风。

外部大家评估员觉得这两个模子齐进展出比先前模子更好的指示衔命才气和更有效、可考证的反映，此外探花七天，新模子在当然对话方面，不错参考牵记和曩昔的对话来使反映愈加个性化的回话。

多模态才气的评估成果：

编码才气的评估成果：

衔命指示和代理用具使用的评估成果：

三、延续“更多臆度=更好性能”念念路，已开源轻量级编码智能体

在OpenAI o3的开导过程中，斟酌东说念主员不雅察到大范畴强化学习呈现出与GPT系列预教师中不雅察到的“更多臆度=更好性能”的趋势一样。

他们通过在强化学习中回顾扩展旅途，在教师臆度和推理技术上又鼓吹了一个数目级后，看到了模子澄清的性能进步，这考证了跟着模子被允许进行更多念念考，其性能仍在握续进步。

大奶人体艺术

与OpenAI o1一样的延长和老本下，o3在ChatGPT中兑现了更高的性能，何况其在博客中裸露，斟酌东说念主员已教训证，若是让模子念念考更长的技术，其性能还会延续进步。

斟酌东说念主员还通过强化学习教师了新模子使用用具，不仅包括怎么使用用具，还包括怎么推理何时使用用具。新模子不错阐述渴望成果部署用具，使得其在波及视觉推理和多身手责任经由等洞开式情境的进展更好。

OpenAI还共享了一个轻量级的编程Agent Codex CLI，用来最大化o3和o4-mini等模子的推理才气，用户不错顺利在结尾开动，OpenAI筹画援手GPT-4.1等更多API模子。

用户不错通过传递截图或低保真草图到模子，联接对腹地代码的旁观，从号令行取得多模态推理的平允。OpenAI觉得这不错将模子与用户偏激臆度机承接起来。今天起，Codex CLI已饱和开源。

开源地址：github.com/openai/codex

同期，OpenAI启动了一项100万好意思元倡议，以援手使用Codex CLI和OpenAI模子的工程技俩，其将评估并收受以25000好意思元API信用额度模式提供的补助金肯求。

四、仍有三大局限性：推理链过程、感知造作、可靠性不及

不外，在博客中斟酌东说念主员也提到，图像推理现在存在以下局限性：

过长的推理链：模子可能会施行冗余或无须要的用具调用和图像处理身手，导致过长的念念维链；

感知造作：模子仍然可能犯基本的感知造作。即使用具调用正确鼓吹推理过程，视觉误会也可能导致最终谜底不正确；

可靠性：模子可能在屡次尝试处理问题时尝试不同的视觉推理过程，其中一些可能导致造作的成果。

在安全方面，OpenA重建了安全教师数据，在生物挟制（生物风险）、坏心软件生成和逃狱等范畴添加了新的圮绝提醒。这使得o3和o4-mini在其里面圮绝基准测试中进展较好。

OpenAI还开导了系统级缓解步履，以符号前沿风险区域中的危机提醒。斟酌东说念主员教师了一个推理大模子监控器，该监控器基于东说念主类编写的可评释安全法式。当利用于生物风险时，该监控器顺利符号了东说念主类红队步履中约 99%的对话。

斟酌东说念主员更新了济急准备框架，对o3和o4-mini在框架涵盖的三个追踪才气范畴进行了评估：生物和化学、相聚安全和AI自我改换。阐述这些评估的成果，其信托o3和o4-mini在扫数三个类别中均低于框架的“高”阈值。

结语：发力视觉推理，迈向多模态推理

OpenAI o3和o4-mini显贵进步了模子的视觉推理才气，这些模子在视觉感知任务上的进步，使其或者处理之前模子难以触及的问题，记号着模子向多模态推理迈出的蹙迫一步。

OpenAI在博客中提到，他们将o系列的专科推理才气与GPT系列的当然对话才气和用具使用才气相联接，改日不错兑现模子能援手无缝、当然的对话，同期能主动使用用具并处理更为复杂的问题。

此外，斟酌东说念主员也在不停优化模子使用图像进行推理的才气，使其愈加任性、更少冗余、更可靠。

探花 七天 o3和o4-mini来了！OpenAI冲突最强“看图念念考”，开源AI编程神器，史上最大收购曝光

探花七天 o3和o4-mini来了！OpenAI冲突最强“看图念念考”，开源AI编程神器，史上最大收购曝光