自主服务机器人

研究背景：

随着人工智能技术的飞速发展，以机器人科技为代表的智能产业蓬勃兴起，成为现时代科技创新的一个重要标志。目前，针对社区、养老院、康复中心等室内动态、不确定等复杂场景下智能机器人自主服务的迫切需求，服务机器人系统存在物理环境建模不充分，智能化程度弱，自主学习效率低等问题，本项目拟开展基于数字孪生的自主服务机器人虚实交互学习的关键技术研究，解决服务机器人自主进化与智能增长等基础性问题。在服务机器人的学习建模与迭代进化、虚实闭环演练与智能增长、遂行任务综合评价方法与体系等方面开展关键技术研究。

研究内容：

1、虚实闭环自主学习与进化训练

提出基于数字孪生的服务机器人虚实闭环自主学习与进化方法，研究数字孪生建模、自主学习与进化的技术方案，建立“感-知-决-控”一体化集成框架。

（1）事件特征驱动的知识图谱构建：结合历史信息专家规则和事件特征提取与选择识别，进行模式学习、关系扩充、结构匹配、知识融合、知识推理、知识对齐，构建面向场景任务事件驱动知识图谱。

（2）基于深度强化学习和表示学习的知识迁移：借助知识图谱，对动作、操作、服务、技能等多层次任务知识进行知识表示，利用强化深度学习推理网络，对学习的知识进行迁移，获得后续任务的指令序列。

（3）虚实闭环的自主学习与进化训练：利用基于表示学习的知识迁移策略进行由虚及实知识迁移，实现由虚及实、由实及虚双向闭环自主学习与进化，提高服务机器人智能水平。

2、服务机器人决策行为评估与任务效果评价

基于专家评估样本和数字孪生系统，利用最大熵逆强化学习的方法来学习不同目标之间的权重系数，引入多任务损失函数和熵正则化约束，构建服务机器人决策评估函数。在构建决策评估函数的基础上，研究决策行为评估和任务执行效果评价两者之间的一致性问题。然后，扩展到对服务机器人遂行任务全过程进行性能评价。

（1）服务机器人决策评估构建：在数字孪生系统上，构建多目标优化评估函数，进行最大熵逆强化学习来评估服务机器人的决策行为。

（2）行为评估与任务评价一致性研究：通过决策行为评估和任务效果评价，构建深度神经网络和博弈控制理论冲突模型，追溯二者不一致根源，目标达成一致。

（3）服务机器人遂行任务全过程性能评价：通过孪生数据深度挖掘、深度递归神经网络和残差神经网络进行任务状态属性特征分析，建立任务效果指标与模型，优化过程评价体系。