Navigation menu

新闻中心

Openai发布GPT

OpenAI 发布了 GPT-5.2 来与 Gemini 竞争,声称 Gemini 拥有最强的代理编码,超越了人类专家。奥特曼有望一月解除红色警报 Openai周四正式发布了GPT-5.2系列机型,打响了针对谷歌Gemini 3的第一枪。CEO Sam Altman淡化了Gemini 3的影响,预计明年1月提升所谓的“红色警报”状态,以非常强硬的态度恢复正常。 GPT-5.2 是 OpenAi 迄今为止最先进的人工智能 (AI)。针对专业工作场景进行全面优化,在多项基准测试中创下行业记录。其中,GPT-5.2的思维创下了SWE编码能力测试历史上的新纪录,也是OpenAi第一个性能达到或超过人类专家水平的模型。 OpenAi应用业务首席执行官Fidji Simo表示,GPT-5.2在创建电子表格方面优于上一代产品进行演示、图像识别、编写代码和理解文本,旨在“为人们创造更多经济价值”。 OpenAI研究副总裁Adain Clark表示,GPT-5.2在数学推理方面的进步意味着它可以更好地处理金融建模、预测和数据分析等任务。 OpenAi 宣布 GPT5.2 将于周四在 ChatGPT 上线。它提供三个版本:Instant、Thinking 和 Pro,适用于 Plus、Pro、Go、Business 和 Enterprise 等付费套餐的用户。 API也将同时向所有开发者开放。在 ChATGPT 中,付费用户可以使用三个版本的 GPT-5.2,并且在接下来的三个月内可以继续使用 GPT-5.1。在 API 平台上,GPT-5.2 的定价为每百万个输入代币 1.75 美元,每百万个输出代币 14 美元,缓存输入可享受 90% 的折扣。虽然单个代币的价格高于 GPT-5.1,但 OpenAi 表示,由于模型效率更高,达到相同质量水平的总成本较低。新型号的发布是Openai官方对Gemini 3的回应,这引发了又一轮的竞争。本周早些时候,Media 报道称,OpenAI 首席执行官 Sam Altman 最近发布了一份内部“红色警报”备忘录,要求公司集中资源改进 ChatGPT。谷歌几周前推出的 Gemini 3 因其推理和编码能力而受到广泛好评。它很快就在《Lmarena》和《人类最终测试》等强大排行榜上名列前茅,给openai带来了压力。评论人士认为,GPT-5.2与其说是调查,不如说是OpenAi最近两次升级的整合。 8 月份发布的 GPT-5 是一次重置,为统一系统奠定了基础。它可以在快速默认模式和更深层次的“思考”模式之间切换。 GPT-5.1 于 11 月发布,专注于使系统更友好、更具对话性,并且更适合代理和编码任务。 GPT-5.2 似乎 bri所有这些进步使其成为生产应用程序更可靠的基础。 GPT5.2的三个版本都注重快速、深度、智能和可靠。在周四发布的 tatlof GPT 5.2 版本中,OpenAI 引入了 Instant 作为快速高效的日常工作和学习助手,在信息查询、操作指南、技术写作和翻译等方面都有显着改进。 ,并延续了GPT-5.1即时的更多对话风格。早期测试人员特别注意到 GPT-5.2 的解释更加清晰,并且直接呈现了关键信息。 Think 专为深度工作而设计,帮助用户更高效地完成更复杂的任务,尤其是在编码、总结长文档、回答有关上传文件的问题、逐步执行数学和逻辑运算以及以更清晰的框架和更有用的数据帮助规划和决策时。 Pro是高质量答案时“最智能、最可靠”的选择o 需要提出困难的问题。早期测试表明,它在编程等复杂领域表现更好,主要错误更少。各方面性能领先,多项基准测试创下新高。 GPT-5.2在多项关键基准测试中创造了新的行业记录。在GDPVAL测试中,模型在覆盖44个职业的工作任务上,70.9%的表现达到或超过行业专家的水平。 OpenAI声称GPT-5.2思维可以比专家快11倍以上完成这些任务,而成本还不到专家的1%。编码能力方面,GPT-5.2思维在SWE-Bench Pro上取得了55.6%的isscore,并在SWE-Bench验证上取得了80%的新高。该基准测试跨四种编程语言测试现实世界的软件工程任务。 OpenAI 产品主管 Max Schwarzer 表示,GPT-5.2 在代码生成和调试方面取得了重大进展,Windsurf 和 Charliecode 等编码初创公司报告称,该模型实现了“最先进的”OpenAI 声称,GPT-5.2 的思维是“世界上最好的视觉模型”,在图推理和理解软件界面方面的错误率降低了近一半。在长文本处理中,该模型在 OpenAI MRCRV2 测试中首次在 256,000 个 token 范围内实现近 100% 的准确率,使其特别适合深度文档分析和工作流多源信息。在科学研究领域, GPT-5.2 Pro 在 GPQA 的 Diamond Diamond 测试中取得了 93.2% 的准确率,其次是 GPT-5.2 Thinking,在 Frontiermath 的专家级数学测试中,GPT-5.2 Thinking 解决了 40.3% 的问题,创下了新纪录。 Gemini 3效应并不需要太担心,面对Gemini 3带来的竞争压力,奥特曼在周四接受媒体采访时表示:“小鬼。”Gemini 3对我们指标的影响可能没有我们担心的那么大。”他预计,到明年1月,OpenAi将摆脱红色警报模式,并处于“非常有利的地位”。关于红色警报的原因,Simo在新闻发布会上解释道:“我们宣布红色警报是为了向公司发出一个信号,即我们希望将资源集中在某个领域。他强调,虽然ChATGPT获得了更多的资源投入,但GPT-5.2的发布已经准备了好几个月,并没有因为红色警报而仓促。虽然Altman在内部备忘录中报告优先考虑图像生成,但新的OpenAi产品发布并不包括新的图像生成器。据报道,OpenAI将于明年1月发布另一个新模型,将提供更好的图像生成、更快的速度和更多的个性化能力,但该公司并没有OpenAI周四也确认了这一计划,并宣布推出PR。编辑软件byage为18岁以下的用户提供内容保护。 Simo 宣布该公司将于明年第一季度推出“成人模式”,Altman 表示该模式可以允许“经过认证的成人的色情内容”和其他功能。企业客户已成为竞争的焦点。 GPT-5.2的发布明确针对商业市场。 OpenAI 本周早些时候发布的新数据显示,过去一年人工智能工具的商业使用量大幅增长。该公司表示,ChATGPT Enterprise 用户平均表示 AI 每天为他们节省 40 到 60 分钟,重度用户每周节省 10 多个小时。 Notion、Box、Shopify、Harvey 和 Zoom 等企业客户注意到 GPT-5.2 展示了最先进的长周期推理和工具调用性能。 Databricks、Hex 和 Triple Whale 发现该模型在科幻小说和文档分析任务中表现良好。 Cognition、Warp、Charlie Labs、Jetbrains 和 Augment代码称GPT-5.2提供了最先进的代理编码性能。在工具调用方面,GPT-5.2思维在TAU2-Bench Telecom测试中达到了98.7%的准确率,展示了在长期、多轮任务中可靠使用工具的能力。在涉及航班延误、转机失败和医疗座位请求的复杂客户服务案例中,GPT-5.2成功管理了整个重新预订流程、特殊座位协助和赔偿。这一战略转变正值关键时刻。 OpenAI 预计未来几年在人工智能基础设施方面的收入将超过 1 万亿美元,但现在谷歌已经落后了。据报道,OpenAi的大部分计算支出都是以现金支付,而不是使用云积分,这表明该公司的计算支出超出了合作伙伴和积分的范围。复制推理模型可能会造成恶性循环:增加计算成本以赢得排行榜,然后进一步增加运行这些高成本模型的支出。在定价策略上,虽然ChATGPT的认购价格保持不变,但API中GPT-5.2单币价格高于GPT-5.1,但仍低于其他切割模型。 OpenAI 目前没有计划删除 GPT-5.1、GPT-5 或 GPT-4.1,并承诺向开发者充分通知任何拒绝计划。 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。