Page 333 - 《软件学报》2025年第4期
P. 333

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1739


                 集是一个大型     RGBD  数据集, 包含来自     90  个室内场景的   10 800  个全景视图的   194 400  张  RGBD  图像和相应的位
                 姿. 与传统图像数据集不同, MP3D        数据集中的图像数据覆盖了场景的全部范围, MP3D               通过在环境中全面覆盖视
                 点, 扫描每一个视点周围       360  度的全景视觉观测. MP3D     数据集同时提供了环境的          3D  纹理和语义信息, 语义信息
                 包括涉及   40  个物体类别的    50 811  个实例级物体语义注释. 研究者通常采用           Habitat 仿真器  [10] 对  MP3D  数据集进
                 行渲染, 开展具身人工智能技术研究.
                    (2) Gibson
                                                                                                       2
                    Gibson  数据集由  Xia 等人  [5] 于  2018  年发布, 包括  572  个完整建筑中的  1 447  层空间, 总覆盖面积为  211 km .
                 Gibson  数据集涵盖多种类型的场景, 包括住宅、办公室、酒店、博物馆、医院、建筑工地等. 每个空间都包含一
                 组  RGB  全景图, 深度图像, 语义信息和      3D  纹理数据. Gibson  数据集是采用    3D  扫描重建的方法从真实环境中构建
                 的, 做到了对真实世界的高质量的模拟重建.
                    (3) HM3D
                    HM3D  由  Ramakrishnan  等人  [6] 于  2021  年发布, 相较于其他  3D  场景数据集, 其优势主要表现在大规模、完整
                 性, 视觉保真度这     3  方面. HM3D  是一个超大型的图像数据集, 包含真实世界中的              1 000  个建筑的  3D  纹理网格, 场
                 质感和随视角光线动态变化的视觉属性. iGibson 1.0
                                     2
                 景覆盖范围达到      112.5 km , 数据集规模比   MP3D, Gibson  数据集大  1.4–3.7  倍. 该数据集包含超过   10 600  个房间,
                 分布于大约    1 920  个建筑楼层, 覆盖多层住宅, 办公室, 餐厅和商店等多个场景. HM3D               使用密集视点均匀采样的
                 方法弥补了    3D  重建过程中出现缝隙或者黑洞的情况, 提供了更完整的                 3D  重建.
                    (4) AI2-THOR
                             [7]
                    AI2-THOR 本身不仅是一个数据集, 更是一个综合的视觉                 AI 研究框架, 由   Kolve  等人于  2019  年发布. 与
                 MP3D  等数据集相比, 其最大优越性在于         AI2-THOR  支持具身智能体与物体进行多种类型的交互. AI2-THOR              包括
                 3 758  个可交互物体实例, 例如打开或关闭冰箱, 面包切片并使用烤箱进行烘焙等. 同时, AI2-THOR                    提供的逼真的
                 物体和场景是通过专业艺术家建模搭建的, 与真实世界近乎相同. AI2-THOR                         囊括了   iTHOR, RoboTHOR,
                 ProcTHOR-10K  和  ArchitecTHOR  等场景数据集. 其中, iTHOR  是原始数据集, 由包含卧室、浴室、厨房、客厅等
                 场景在内的    120  个房间组成.
                    (5) ProTHOR
                    ProcTHOR  是  Deitke 等人  [47] 在  AI2-THOR  基础上提出的一种程序化场景生成框架. ProcTHOR    包含了   108  种
                 室内常见物体以及       1 633  个可供交互的物体实例, 并且支持对物体材质, 空间位置, 房间布局, 甚至光照条件进行修
                 改, 以此将仿真场景数量拓宽到一个极大的数量级. 相较于使用                   Matterport3D、Gibson  和  HM3D  等基于  3D  扫描
                 数据生成的环境, ProcTHOR     生成的场景既支持不同的物体状态             (打开、关闭和损坏等), 又支持机械臂与物体之
                 间的多种交互操作, 实现了跨导航、交互、操作多种任务的智能体训练. 除了为具身智能体训练提供仿真环境,
                 ProcTHOR  生成了  10 000  个不同规模和布局的室内场景并收集了对应的数据, 提出了目前最大的交互式家庭环境
                 数据集——ProcTHOR-10K    数据集.
                    (6) iGibson 1.0  和  iGibson 2.0
                    iGibson  是一种新型的仿真模拟环境, 由        Shen  等人  [8] 于  2021  年发布. iGibson  既拥有庞大的图像数据集和逼
                                                                         [8]
                 真的  3D  环境, 又具有近乎真实世界的完整的动作交互过程. iGibson 1.0  拥有              15  个支持完全互动的场景, 覆盖
                 108  个房间, 高度重建了真实世界的室内环境. 同时, 通过物理引擎对环境中的物体模型进行渲染, 具有真实材料
                                                          优秀的人机交互界面为具身人工智能技术研究提供了便捷.
                 iGibson 2.0 在 [9]  iGibson 1.0  的基础上丰富了物体的状态, 包括温度、湿度、清洁度、切片状态等, 将交互推广到更
                 广泛的领域. 在交互任务方面, iGibson       进一步提出一系列谓词逻辑函数, 描述物体的状态变化, 例如温度变化, 清
                 洁度变化. 此外    iGibson 2.0  在  iGibson 1.0  的基础上设计了一个新的虚拟现实界面, 支持用户与具身智能体的交互.

                 4.1.2    视觉物体重排布数据集
                    (1) RoomR  数据集
                    RoomR  数据集  [13] 是  Weihs 等人基于  AI2-THOR  仿真环境面专门为物体重排布任务设计的, 发布于             2021  年.
   328   329   330   331   332   333   334   335   336   337   338