标准化 3D 生成质量榜单来了!首创层次化评价体系,告别“谁的 demo 更吸睛”主观评估
更新时间:2026-04-18 15:30:03
标准化 3D 生成质量榜单来了!首创层次化评价体系,告别“谁的 demo 更吸睛”主观评估
在人工智能视频技术领域,预计比更引人注目的是,AI生成的高质量程度达到了新的高度。

△图源:Meshy
随着模型能力的不断进化,在评估层面,新的挑战也在出现:
传统的三维生成评测常忽略细节和材质,缺乏系统的局部结构分析,无法全面评价其质量。
为了应对这一挑战,上海人工智能研究院与复旦大学、清华大学、香港中文大学等多个高校共同推出了HiEval这套针对三维内容生成的新一代自动评估系统。

团队采用设计对象级、部件级和材质主题三层次评价标准,对模型进行全面检测,涵盖整体形状、局部构造及材质真实性等多个方面,从而有效评估其生成性能。
在这一基础上,首期的生成榜单已在Hugging Face同步公布,涵盖了主流和前沿模型,专注于Text到和Image到两大关键任务。

研究团队宣布,新榜单揭示了模型整体性能的综合表现,旨在成为学术界和产业界可追查、再现的标准比对基准,加速提升生成技术的质量和透明度。
三层评测协议:从整体到细节,全面解析 3D 生成质量
HiEval采用三层评测协议构建了层次化的质量分析体系,能深入剖析质量细节并指出优势和不足,助力提升模型性能。
对象级(object-level)
对象级评估聚焦于展示生成物体的宏观特性,包括“几何合理性”、“几何细腻度”、“纹理品质”、“几何-纹理一致性”及“提示-一致性”五个关键指标。
" 几何合理性 " 侧重的结构完整性、保真性,不存在多头、塌陷、浮空等违背物理规律。
" 几何精细度 " 则侧重表面精细度,包括边缘锐利度、细小部件的完整性等。
" 纹理质量 " 考察纹理贴图的清晰度、细节保真度以及美学水平。
几何 - 纹理一致性:验证纹理与几何结构匹配度,确保花纹与物体边缘同步。
Prompt- Consistency 计算生成的三维资产与输入文本或图像提示的一致性,涵盖类目、属性及身份特征,以满足用户需求。

部件级(part-level)
现有的大多数 3D 生成评测体系都停留在对象级评估,只能给出整体质量的笼统评分,难以揭示模型在局部结构上的优劣。
HiEval引入部件级评测,聚焦于如椅子腿、扶手和背板等细节部位,显著提升检测准确性。
这种粒度更细的评测不仅有助于诊断生成过程中的局部几何问题,还能在模型优化时提供有针对性的改进信号。评测维度包括局部几何合理性(确保局部结构符合现实物理与设计逻辑)和局部几何精细度(衡量细节刻画的清晰度与丰富程度)。

材质主题(material-subject)
传统的材质评估仍停留在图片质量和主观审美层面,常用的指标如 FID、KID、美学评分等。
为了填补空缺,HiEval 设计了材质主题的评估协议,关注表面视觉和物理属性。通过物体在不同光照条件下的反射信息,从 细节与复杂性、色彩与饱和度、一致性与伪影、材质合理性 四个维度进行全面评估。
新的在这篇文章中,我们将探讨前两个维度的焦点,它们关注的是材质纹理的表面视觉效果。第一个维度“细节与复杂度”特别强调了材质纹理的丰富度和美学协调性,而第二个维度“色彩与饱和度”则评估了材质颜色分布的自然性和饱和度是否合理。然而,后两个维度则完全转向了物理属性的考量。“一致性与伪影”关注的是材质纹理在不同光照或视角下的一致性问题,以防止接缝、错位和异常阴影等视觉伪影出现。最后,“材质合理性”评估反射率、粗糙度等物理特性是否符合现实材料的表现。总的来说,这些维度帮助我们更好地理解并提升材质的表面视觉效果和物理表现的准确性和真实感。

首期评测榜单:直观呈现模型实力,推动行业对标
Hi3DEval 在 HuggingFace 平台发布了首期 3D 生成榜单,涵盖 30 余款 Text-to-3D 与 Image-to-3D 模型。
新闻提升标准:一致测试确保公平榜单新的研究对所有模型进行了严格的统一评测,覆盖相同的输入提示、渲染视角、光照条件及输出格式等关键因素。这种标准化流程不仅有效排除了实验环境带来的偏差,还极大地提升了榜单评分的公正性和可参考性。
新的文章深度学习模型性能评估的关键指标榜单结果不仅展示了总分排名,还详细列出了各个维度的单项得分,帮助研究者和开发者快速识别模型的优势与不足。此外,它为学术界与工业界提供了一个可追踪的对标参考标准,推动生成技术向着高质量、透明化方向发展。

完整榜单可点击文末链接查看。
自动化评测管线:混合 3D 表征,增强 3D 感知能力
长期以来,大多数测试依赖于静态图像来进行评估,这限制了对动态不一致性和真实几何错误的识别能力。例如,跨视角形变和细节抖动等问题难以通过静态图像体现出来;同样,多头问题和局部塌陷等真实几何缺陷也不能被揭示。为了克服这些局限性,我们提出了一种全新的方法来评估模型在实际三维应用环境中的表现。这种方法采用动态渲染技术,可以实时展示并检测不一致性和几何错误。这样,评测结果与模型的实际可用性更加贴近,并能更好地反映其在复杂场景下的性能。
为了克服表征的限制,HiEval采用多视角环绕视频与原生网格相结合的方式建立了基于混合表示的自动化评估流程。
视频表征不仅能够清晰展现跨视角、时序结构的稳定性与纹理漂移,还能够有效区分帧静即美,旋转即毁的模型,非常适合应用于对象级和材质主题的评估。然而,对于部件级别的评测却因视频表征中经常发生对部件主体的遮挡问题而受到影响。为了解决这一难题,选用了原生表征并支持几何相关维度的自动化评测方法,从而提升了部件级评价的质量。
HiEval凭借统一的模型设置和对比实验,在人类偏好一致性的测试中取得了显著优势,其性能远超现有的主要自动评价标准,并为三维内容生成领域的评估工具带来更可靠的、全面的方法。

在当前技术快速发展的背景下,尽管各模型的功能与表现形式有所趋同,但其在细节精致度、真实性以及结构一致性的水平上仍存在较大差距。
在过去的年代里,由于没有一套科学、统一且可扩展的评估标准,行业的讨论主要集中在哪个Demo更吸引人上,无法全面评估方法的实际效果。
HiEval的发布,打破了现有局限,不仅确立了内容质量的标准化评判体系,还为学术界与产业界提供了更加公正透明的评估基准。
论文地址:
https://arxiv.org/abs/2508.05609
项目主页:
https://zyh482.github.io/Hi3DEval/
评测榜单:
https://huggingface.co/spaces/3DTopia/3DGen-Leaderboard
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
完
点亮星标
科技前沿进展每日见
以上就是标准化 3D 生成质量榜单来了!首创层次化评价体系,告别“谁的 demo 更吸睛”主观评估的详细内容,更多请关注其它相关文章!
