奥特曼公开承认“搞砸了”,AI巨头为何突然“纠偏”?_OpenAI_模型_能力
1月27日,OpenAI首席执行官萨姆·奥特曼在一场公开直播中罕见承认:公司在开发ChatGPT-5时“确实搞砸了”,出现了路线偏差。他坦言,团队过度聚焦于提升模型的智力、推理和编程能力,导致模型在写作等通用能力上“偏科”,某些表现甚至不如前代。奥特曼承诺将重新校准方向,回归打造“真正高质量的通用型模型”的初心。
这一罕见的公开“认错”,迅速在科技界引发震动。
反思背后,是GPT-5发布后积累的用户反馈与内部审视。从GPT-3到GPT-5,行业曾深信“规模决定一切”,GPT-4的巨大成功更强化了这一路径。然而,激烈的市场竞争——尤其是与谷歌、Anthropic等在编程、推理等硬核能力上的竞赛——驱使***向能直观体现“智能”飞跃的领域倾斜。同时,主流学术基准测试侧重于数学、代码等可量化领域,无形中成了研发的“指挥棒”。即便GPT-5引入了“自动切换器”机制以优化算力,其根本目标仍是更高效地服务深度推理任务。
副作用在用户端逐渐显现。2025年GPT-5发布后,大量用户反馈其写作能力“退化”:文章逻辑清晰却用词模式化,缺乏文***与自然感,“AI味”浓重。一些基础性问题,如简单拼写和计数,反而会出错。尽管奥特曼曾将部分问题归咎于技术故障,但持续的批评促使了更深层检讨。
一个在创意写作、细腻表达上不稳的模型,与大众对“像人一样交流”的AI助手的期待产生了落差。这对OpenAI打造普及化超级应用的品牌形象构成了挑战。更深层看,在竞争对手持续发力、全球监管日益关注的背景下,此次“纠偏”也是一次战略校准。通过公开承认“偏科”,OpenAI意在重新夺回对“通用人工智能”定义的话语权,强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。
奥特曼的声明,涟漪将波及多个层面。
对OpenAI自身,这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效“补短板”,提升创造性写作、情感理解等能力,是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡“专精”与“通用”,将成为未来几年的核心课题。
对AI行业,OpenAI的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续,或会减缓特定赛道的“军备竞赛”,激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现,可能成为新焦点。这也给在“通用性”或“人性化交互”上有特色的竞争对手更多市场叙事空间。
对公众与学界的AGI讨论,此次***提供了鲜活案例。它尖锐地提问:何为真正的AGI?是能在特定测试中拿高分,还是具备可灵活迁移的综合智能?奥特曼在直播中描绘了他心目中的AGI里程碑:当模型第一次面对完全陌生的新环境或工具时,只需解释一次甚至无需解释,就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分,更强调自主学习和适应未知的泛化能力。
技术层面,在现有千亿甚至万亿参数规模的模型上“补短板”,其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计,并可能需要发展新的训练算法,使模型在不损害已有强项的前提下,高效学习新能力。
其次,评估体系亟待变革。现有主流基准测试已不足以衡量模型的“通用性”。行业可能需要发展新型的、更全面的评估标准,例如动态交互测试、开放式创意任务评估等,以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的“Tong Test”框架,强调通过动态的物理和社会交互来评估AGI,正是这一方向上的探索。
OpenAI的“纠偏”,像是技术发展“钟摆效应”的体现。在专注与泛化、性能与安全之间,行业轨迹往往不是直线前进,而是在探索极端后回调寻找新的平衡。
来源:布谷财经返回搜狐,查看更多
同类文章排行
- 中国人口正经历前所未有大转折,如何看待中国人口负增长?应该怎样应对?
- 要从vim切换到neovim吗?
- docker 容器启动后如何添加端口映射?
- postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
- 以色列为什么要打伊朗?
- 央企的信创,是否有必要把 spring 替换成国产的 solon ?
- 有哪些看似精妙实则很蠢的设计?
- 如何评价字节跳动开源的 Netpoll?
- 中年夫妻的婚姻状态是什么样的?
- MacOS真的比Windows流畅吗?
最新资讯文章
- 有哪些值得分享的摘抄?
- 阿里网盘为什么没有动静了?
- 匿名关了,大家实名说说你最近的烦恼?
- 如何看待《剑星》已登顶 Steam 全球热销榜?
- 为什么从事技术的人普遍都比较难沟通?
- 以色列为什么突然敢打伊朗了?不怕被报复?
- 大街上看到大白腿,忍不住瞄了两眼,算不算不尊重女性?
- express + mongodb (mongoose) 中 mvc的model层如何使用?
- 你如何评价小米这个品牌?
- 苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
- SwiftUI 是不是一个败笔?
- 海贼王为什么现在被全网黑?
- 高架桥进匝道限速30,我开29为什么会被后车滴?
- 已婚职业女性,对男同事「开玩笑」,可以有多出格?
- 雷军为什么不愿意用性价比打法进军NAS?
- 网友称在桔子水晶酒店洗漱包内发现用过的四联检测盒,具体是怎么回事?酒店要承担哪些责任?
- 有什么网盘资料值得分享?
- 同事连续几天把孩子带来上班,你们有过这样的经历吗?
- 如何看待:“伊朗国家电视台:今晚会发生一件大事,世界将铭记几个世纪”?
- 你认为这次伊以冲突,以色列这次干得漂亮吗?





