如何对齐DNN与人类看世界的方式?像素还是概念?

9次阅读
没有评论

共计 1542 个字符,预计需要花费 4 分钟才能阅读完成。

如何对齐DNN与人类看世界的方式?像素还是概念?

编辑丨%

人类专注于物体的含义,而人工智能则专注于视觉特征。

在过去的许多研究中,比较人类和 AI 中的表征的工作都依赖于全局标量度量来量化它们的一致性。但若无明确的假设,这些衡量标准也只是说明对齐的程度,而非决定因素。

这就带来了一个很值得思考的问题:「AI 眼中的『相似图像』和人类大脑的判断逻辑到底有多像?」

来自德国普朗克研究所(Max Planck Institute)与荷兰奈梅亨达彭丁研究所(Nijmegen)的几位研究者提出了一种通用框架,用以比较人类与 AI 的表征。

该研究以「Dimensions underlying the representational alignment of deep neural networks with humans」为题,于 2025 年 6 月 23 日刊登于《Nature Machine Intelligence》。

如何对齐DNN与人类看世界的方式?像素还是概念?

论文链接:https://www.nature.com/articles/s42256-025-01041-7

让 AI 和人类「玩找不同」

此前的许多种对比实验中,大都聚焦于两种系统的行为策略(例如,分类),揭示了 DNN 在泛化性能上的局限性。

目前常采用的相关系数或解释方差等总结统计量虽然在比较表征对齐方面有所吸引力,但在未明确假设潜在的对其偏差原因下,这些指标对主要决定属性的解释能力有限。

团队此次开发的框架受到近期认知科学研究的启发,揭示了多个可解释的 DNN 维度,这些维度似乎反映了视觉和语义图像属性,并且与人类表现得相当一致。

作为任务,人类参与者和 DNN(VGG-16)需要从展示的 3 张图像(如猫、狗、笼子)中选出「最不相似」的一张,该任务近似人类对任意视觉和语义类别的分类行为,适合比较人类和 DNN 的对象表示。

如何对齐DNN与人类看世界的方式?像素还是概念?

图 1:通过模拟奇偶项任务中的行为决策来捕捉类人 DNN 对象表示的计算框架。

接下来,该框架会分析 470 万次人类判断和 2.4 万张图像的 AI 响应,用变分嵌入技术(VICE)提取「思维维度」:人类得到 68 维「语义脑回路」,AI 生成 70 维「视觉编码」。

在这些维度中,DNN 嵌入捕获了图像间相似性总变异的 84.03%,而人类嵌入捕获了总变异的 82.85%,以及给定数据集经验噪声天花板的 91.20%可解释变异。

维度差异

接下来团队请参与者为每个维度提供标签用以验证观察结果。与其类似的是 DNN 进行描述时嵌入的可解释维度,似乎反映了对象的语义和视觉属性(语义分类、知识相关、视觉感知等)。

如何对齐DNN与人类看世界的方式?像素还是概念?

图 2:从人类和 DNN 行为推断出的表征嵌入。

从结果上看,DNN 的维度不如人类的维度可解释,因其在归类图像上与人类存在全局性差异。人类主要是由语义维度主导,只有少量混合维度。相比之下 DNN 主要由视觉信息占据。

为了更进一步探索 DNN 中包含的可解释且可与人类发现的维度相比较的维度,团队使用了 Grad-CAM 生成热图,揭示哪些图像区域驱动了 DNN 嵌入中的维度。

虽然 Grad-CAM 能定位 AI 关注的图像区域,但本质上仍是「视觉特征拼凑」,与人类基于抽象概念的「语义编码」完全不同。例如,人类的「动物」维度对所有动物图像响应一致,而 AI 的「动物」维度会因背景出现响应波动。

小结

与人类的直接比较显示, DNN 达到这些表示的方式存在很大差异:人类的表示主要由语义维度主导,但 DNN 则表现出对视觉或混合视觉-语义维度的明显偏好。

DNN 仅近似了人类的语义表示,相似的行为结果也是基于不同的嵌入维度推导出来的。

那么这项研究的用处究竟在哪?

团队强调,他们的工作有助于理解人类和 DNN 在表示和行为上的差异,还有助于指导未来的工作,确定人类与 AI 对齐的差距,给予更准确的指导(比如智能识别训练)。

文章来源:https://baijiahao.baidu.com/s?id=1836436189069828370

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2025-07-01发表,共计1542字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)