9月25日，OpenAI发布一项新基准测试，旨在评估其人工智能（AI）模型在各类行业及职业中与人类专... 金灵Gilin

9月25日，OpenAI发布一项新基准测试，旨在评估其人工智能（AI）模型在各类行业及职业中与人类专业人士的表现差异。这项名为GDPval的测试，是该公司为了解自身系统在 “高经济价值工作” 上与人类表现的接近程度所做的初步尝试 —— 而实现这一目标，正是OpenAI成立使命中 “研发通用人工智能（AGI）” 的关键组成部分。OpenAI表示，研究发现其GPT-5模型及Anthropic公司的Claude Opus 4.1模型 “在工作质量上已接近行业专家水平”。