OpenAI 最新模型在这些关键工作功能方面表现卓越,令人瞩目。

图片[1]-OpenAI 最新模型在这些关键工作功能方面表现卓越,令人瞩目。-oserp

OpenAI 的最新人工智能模型 GPT-5.2 在 GDPval 中刷新了记录。GDPval 是该公司开发的一项评估工具,旨在追踪人工智能模型在具备经济价值的现实世界任务中的表现。

GDPval 正在评估一个需完成 1320 项传统由人类执行的任务的人工智能模型,这些任务涵盖房地产、政府、制造业、专业服务、医疗保健、金融、贸易和信息等八个行业的 44 个职业。随后,由人类评审团判定该模型的工作成果是否达到或超越熟练人类员工的水平。

在启用思考模式后,GPT-5.2 在约 71% 的任务中达到或超越了“行业顶尖专家”的水平,相较于 GPT-5 约 40% 的得分,实现了显著提升。这款新模型超越了 Anthropic 目前最先进的 AI 模型 Claude Opus 4.5(得分约 60%)和 Google 的 Gemini 3 Pro(得分约 54%),位居榜首。OpenAI 表示,GPT-5.2 是“我们首个性能达到或超过人类专家水平的模型”。

GPT-5.2 Pro 是该模型的更大、更昂贵的版本,表现更为出色,GDPval 得分高达 74.1%。

OpenAI 指出,GPT-5.2 完成 GDPval 任务的速度比专家人类快 11 倍,成本仅为专家人类的 1%,这表明,在与人类监督相结合的情况下,GPT-5.2 有助于完成专业工作。

然而,该模型并非在所有商业导向的评估中都表现优异。在 Vending-Bench 2 测试中,它排名第三。Vending-Bench 2 是一项基准测试,旨在衡量人工智能模型模拟运行自动售货机一年的能力,并根据其初始 500 美元现金余额的增长幅度进行评分。

在模拟的五年结束后,GPT-5.2 的平均余额为 3,952 美元,远低于 Claude Opus 4.5 的 4,967 美元和领先的 Gemini 3 Pro 的 5,478 美元。尽管如此,该模型相比排名第五、平均余额为 1,473 美元的 GPT-5.1 而言,仍显示出显著的进步。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容