BabyVision评测集发布对国内多模态大模型竞争格局的影响及xbench布局策略分析

一、BabyVision评测集发布的背景与核心价值

2026年1月12日，红杉中国xbench携手UniPat AI团队，联合多家大模型公司与高校研究员，正式发布了多模态理解评测集BabyVision[1]。这一评测集的发布源于一个关键的行业洞察：尽管大模型在语言与文本推理方面突飞猛进，能够撰写论文、攻克难题、在顶级学术竞赛中屡创佳绩，但当问题无法"用语言说清楚"时，模型能否真正"看懂"世界仍存在显著疑问[1]。

BabyVision评测集的设计理念聚焦于量化那些"人类直觉就会、但构成智能地基"的视觉原子能力。评测将视觉能力划分为四大类共22个子任务[1][2]：

能力类别	核心能力描述	子任务数量
精细辨别	细粒度视觉信息提取与区分	9个子任务
视觉追踪	运动轨迹与连通性识别	4个子任务
空间感知	三维结构及其关系的理解	5个子任务
视觉模式识别	逻辑与几何规律的识别	4个子任务

这一评测体系的独特之处在于，它最大程度控制了语言依赖，确保题目要求简单但答案必须依靠视觉信息本身得出，从而有效检验模型的真实视觉能力[2]。

二、多模态大模型在BabyVision评测中的表现分析

BabyVision评测结果揭示了当前多模态大模型在视觉基础能力方面的显著不足，整体表现甚至落在"三岁幼儿"水平区间[1][2]。具体评测结果如下：

人类基线对比

：16位本科及以上背景测试者完成全量388题，准确率达94.1%[2]。

闭源模型排名

：

Gemini 3-Pro-Preview：49.7%（最强）
GPT-5.2：34.8%
Doubao-1.8：30.2%[2]

开源模型排名

：

Qwen3VL-235B-Thinking：22.2%（最强）
多数模型集中在12%-19%区间[2]

更引人注目的是BabyVision-Mini小试卷实验：研究团队将20道视觉中心任务交给不同年龄段孩子（3/6/10/12岁）和顶尖多模态模型同时测试，结果显示大多数模型的分数明显低于平均3岁儿童的水平，Gemini 3-Pro-Preview是唯一稳定超过3岁基线的模型，但仍距离6岁儿童约20个百分点[1]。

三、对国内多模态大模型竞争格局的影响

3.1 明确技术差距与优化方向

BabyVision评测集的发布为国内多模态大模型竞争格局带来了深远影响。首先，它明确指出了当前多模态大模型的核心短板——"unspeakable"问题[2]：视觉细节难以无损压缩成token，模型一旦走先复述再推理的语言捷径，关键信息会在压缩中丢失。这一发现揭示了模型在非语言细节辨别、视觉追踪、空间想象、图形规律归纳四大类基础视觉能力上存在系统性缺陷[1][2]。

3.2 重塑竞争评判标准

传统的多模态评测往往侧重于模型的"会说会写"能力，而BabyVision的发布将竞争焦点转移到了"真实视觉理解"层面。这对于国内多模态大模型厂商而言，意味着单纯的语言推理能力已不足以构建竞争壁垒，视觉地基能力的补齐将成为下一阶段竞争的关键。

3.3 推动具身智能发展基础

评测集的核心设计理念直接服务于具身智能（embodied AI）走向现实世界的需求[2]。由于真实世界不靠语言提示运行，视觉基础能力成为具身智能的必修课。BabyVision将"看懂世界"拆解为可测量、可诊断、可迭代的22个原子能力，为具身智能的技术突破提供了关键的评测标准和发展路线图[1]。

3.4 催生新的研究方向

BabyVision提出了"让模型画出来"的生成式作答新方向[1][2]。BabyVision-Gen从基准中重标注280道适合生成式作答的题，要求模型用图像/视频输出解题过程。实验结果显示，自动评测与人工一致性达96%，且在追踪、精细辨别等任务上更接近人类操作。这为行业提供了新的研究思路：视觉推理"落地到视觉操作"可能是补齐多模态大模型视觉短板的有效路径[2]。

四、红杉中国xbench在AI评测领域的布局策略

4.1 双轨评估体系创新

xbench采用双轨评估体系，将评估基准划分为AGI Tracking赛道与Profession Aligned赛道[1][2]：

轨道	定位	目标
AGI Tracking	追踪模型的AGI演进进程	评估AI系统的能力上限与技术边界
Profession Aligned	量化模型在真实世界中的经济与实用价值	评估AI系统在真实场景的效用价值

BabyVision属于xbench双轨评估中AGI Tracking系列的多模态评估集。展望2026年，xbench判断世界模型与视觉多模态将迎来新一轮突破性进展，值此开年之际发布BabyVision，正是为了迎接并参与新一轮技术突破[1]。

4.2 长青评估机制保障

xbench采用长青评估（Evergreen Evaluation）机制[3]：

持续更新维护
：xbench-ScienceQA和xbench-DeepSearch均采用每月更新榜单、每季度至少更新一次评估集的方式，保证评测集的时效性
黑白盒防污染机制
：公开开源评测集的同时，内部维护闭源的黑盒版本；若开源与闭源版本的模型排名相差较大，会从榜单中移除相关排名和分数，避免刷榜和评测集污染[3]

4.3 分场景精准布局

xbench针对不同应用场景进行了精准布局[3]：

场景	评测集	核心考察能力	目标用户
基座模型	xbench-ScienceQA	专业知识与推理能力	大模型研究者
AI Agent	xbench-DeepSearch	规划+搜索+推理+总结的端到端深度搜索能力	AI Agent开发者
多模态	BabyVision	真实视觉理解能力	多模态模型开发者
垂直领域	Profession-Recruitment/ Marketing	特定领域的Agent能力	垂直行业开发者

4.4 开源共创生态建设

xbench选择开源xbench-ScienceQA和xbench-DeepSearch两个核心评测集，吸引海内外大厂、创业公司、研究者等参与生态建设[3]。同时开放提测、题目共建等渠道，欢迎通过team@xbench.org参与生态建设。这一策略旨在依托社群力量推动评测集持续进化，确保评测体系始终保持前沿性和有效性。

4.5 填补现有评测空白

xbench的布局策略具有明确的补位意识[3]：

针对经典学科评测集已接近满分、无法度量模型进展的问题
，推出xbench-ScienceQA，聚焦STEM学科的高难度、高区分度评测
针对研究生水平评测集数量少、更新难的问题
，持续维护并动态更新评估内容
针对业界缺乏高质量AI Agent深度搜索能力评测集的现状
，推出xbench-DeepSearch，填补中文语境下Agent深度搜索评测的空白

五、结论与展望

BabyVision评测集的发布标志着国内多模态大模型评测进入了新阶段。从竞争格局角度看，这一评测集将促使各大模型厂商重新审视自身的视觉能力短板，将研发资源从单纯的语言推理能力扩展到真实视觉理解层面。从技术发展角度看，"unspeakable"问题的提出和"让模型画出来"的新方向为行业提供了明确的优化路线图。

红杉中国xbench通过双轨评估体系、长青评估机制和开源共创生态的系统性布局，正在构建一个覆盖基座模型、AI Agent、多模态理解和垂直领域的全方位评测体系。这一体系不仅服务于当下的模型能力评估，更为即将到来的世界模型与视觉多模态新一轮突破做好铺垫。随着2026年AI行业对具身智能和世界模型关注度的持续提升，xbench的评测布局将在行业发展中发挥更加关键的引导作用。

参考文献

[1] 新浪财经 - “多模态大模型输给三岁宝宝？xbench x UniPat联合发布新评测集BabyVision” (https://finance.sina.com.cn/chanjing/gsnews/2026-01-12/doc-inhfzcnv8496112.shtml)

[2] UniPat AI Blog - “BabyVision评测集发布” (https://unipat.ai/blog/BabyVision)

[3] 红杉中国官网 - “xbench评测集正式开源” (https://www.hongshan.com/article/xbench评测集正式开源/)

BabyVision评测集发布对国内多模态大模型竞争格局的影响及xbench布局策略分析

解锁更多功能

南向资金持续净流入对港股市场的影响分析

算力硬件板块领跌创业板原因分析及AI投资热潮现状

相关个股