Page 333 - 《软件学报》2025年第4期
P. 333
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1739
集是一个大型 RGBD 数据集, 包含来自 90 个室内场景的 10 800 个全景视图的 194 400 张 RGBD 图像和相应的位
姿. 与传统图像数据集不同, MP3D 数据集中的图像数据覆盖了场景的全部范围, MP3D 通过在环境中全面覆盖视
点, 扫描每一个视点周围 360 度的全景视觉观测. MP3D 数据集同时提供了环境的 3D 纹理和语义信息, 语义信息
包括涉及 40 个物体类别的 50 811 个实例级物体语义注释. 研究者通常采用 Habitat 仿真器 [10] 对 MP3D 数据集进
行渲染, 开展具身人工智能技术研究.
(2) Gibson
2
Gibson 数据集由 Xia 等人 [5] 于 2018 年发布, 包括 572 个完整建筑中的 1 447 层空间, 总覆盖面积为 211 km .
Gibson 数据集涵盖多种类型的场景, 包括住宅、办公室、酒店、博物馆、医院、建筑工地等. 每个空间都包含一
组 RGB 全景图, 深度图像, 语义信息和 3D 纹理数据. Gibson 数据集是采用 3D 扫描重建的方法从真实环境中构建
的, 做到了对真实世界的高质量的模拟重建.
(3) HM3D
HM3D 由 Ramakrishnan 等人 [6] 于 2021 年发布, 相较于其他 3D 场景数据集, 其优势主要表现在大规模、完整
性, 视觉保真度这 3 方面. HM3D 是一个超大型的图像数据集, 包含真实世界中的 1 000 个建筑的 3D 纹理网格, 场
质感和随视角光线动态变化的视觉属性. iGibson 1.0
2
景覆盖范围达到 112.5 km , 数据集规模比 MP3D, Gibson 数据集大 1.4–3.7 倍. 该数据集包含超过 10 600 个房间,
分布于大约 1 920 个建筑楼层, 覆盖多层住宅, 办公室, 餐厅和商店等多个场景. HM3D 使用密集视点均匀采样的
方法弥补了 3D 重建过程中出现缝隙或者黑洞的情况, 提供了更完整的 3D 重建.
(4) AI2-THOR
[7]
AI2-THOR 本身不仅是一个数据集, 更是一个综合的视觉 AI 研究框架, 由 Kolve 等人于 2019 年发布. 与
MP3D 等数据集相比, 其最大优越性在于 AI2-THOR 支持具身智能体与物体进行多种类型的交互. AI2-THOR 包括
3 758 个可交互物体实例, 例如打开或关闭冰箱, 面包切片并使用烤箱进行烘焙等. 同时, AI2-THOR 提供的逼真的
物体和场景是通过专业艺术家建模搭建的, 与真实世界近乎相同. AI2-THOR 囊括了 iTHOR, RoboTHOR,
ProcTHOR-10K 和 ArchitecTHOR 等场景数据集. 其中, iTHOR 是原始数据集, 由包含卧室、浴室、厨房、客厅等
场景在内的 120 个房间组成.
(5) ProTHOR
ProcTHOR 是 Deitke 等人 [47] 在 AI2-THOR 基础上提出的一种程序化场景生成框架. ProcTHOR 包含了 108 种
室内常见物体以及 1 633 个可供交互的物体实例, 并且支持对物体材质, 空间位置, 房间布局, 甚至光照条件进行修
改, 以此将仿真场景数量拓宽到一个极大的数量级. 相较于使用 Matterport3D、Gibson 和 HM3D 等基于 3D 扫描
数据生成的环境, ProcTHOR 生成的场景既支持不同的物体状态 (打开、关闭和损坏等), 又支持机械臂与物体之
间的多种交互操作, 实现了跨导航、交互、操作多种任务的智能体训练. 除了为具身智能体训练提供仿真环境,
ProcTHOR 生成了 10 000 个不同规模和布局的室内场景并收集了对应的数据, 提出了目前最大的交互式家庭环境
数据集——ProcTHOR-10K 数据集.
(6) iGibson 1.0 和 iGibson 2.0
iGibson 是一种新型的仿真模拟环境, 由 Shen 等人 [8] 于 2021 年发布. iGibson 既拥有庞大的图像数据集和逼
[8]
真的 3D 环境, 又具有近乎真实世界的完整的动作交互过程. iGibson 1.0 拥有 15 个支持完全互动的场景, 覆盖
108 个房间, 高度重建了真实世界的室内环境. 同时, 通过物理引擎对环境中的物体模型进行渲染, 具有真实材料
优秀的人机交互界面为具身人工智能技术研究提供了便捷.
iGibson 2.0 在 [9] iGibson 1.0 的基础上丰富了物体的状态, 包括温度、湿度、清洁度、切片状态等, 将交互推广到更
广泛的领域. 在交互任务方面, iGibson 进一步提出一系列谓词逻辑函数, 描述物体的状态变化, 例如温度变化, 清
洁度变化. 此外 iGibson 2.0 在 iGibson 1.0 的基础上设计了一个新的虚拟现实界面, 支持用户与具身智能体的交互.
4.1.2 视觉物体重排布数据集
(1) RoomR 数据集
RoomR 数据集 [13] 是 Weihs 等人基于 AI2-THOR 仿真环境面专门为物体重排布任务设计的, 发布于 2021 年.