在研究中,他们发现,这种机制需要允许用户快速诊断问题并改进机器人的行为。例如在“让机器人拿起书并插入书架”的任务中,由于这是一个复合动作指令,机器人的末端执行器在抓取书籍后与书架的方向不一致,使得准确插入书架变得不可能。这就需要快速在线语言修正,改进机器人的行为,更明确、精确地控制机器人的动作方向。
为此,他们选择用Franka Emika开源版的机器人来完成这项复杂的操作任务,因为该机器人能够在人与机器人的共享交互过程中形成一个更容易调整的控制空间,这种控制方式不同于传统人机交互的离散控制,而是通过状态编码器快速帮助用户获取关节角度和末端效应器姿势,即便在低自由度下,也能够使得每一次实时校正都有大量能让人类再次细化控制的空间,实现更为精确、有效的行为扩展,因此对于环境的适应性更强。
另外作者认为,该机器人还带来一个额外的好处,那就是只需要机器人少量的演示学习,就可以完成特定任务的非线性映射,即学习一个单一的静态映射就可以用于整个场景事件,并快速覆盖多个关键故障问题。这无疑节省了大量的训练时间和成本。
为了克服这些挑战,研究者建立了一个机器人领域的对话数据集(IRWOZ),涵盖四个机器人应用领域,包含提供超过401个工人和机器人之间的模拟讨论,以促进工业环境中的语言辅助人类机器人交互(HRI),并提供一个更自然和适应性更强的对话环境,以增加用户体验和参与度。
最后,研究者提出并评估了一种工业机器人面向任务的端到端任务导向对话 (TOD4IR),并使用两种预先训练的数据模型: GPT-2和GPT-Neo进行了一系列的对比试验,以验证其在真实制造环境中的性能。实验表明,ToD4IR优于三个下游任务导向的对话任务。
该研究通过 Franka Emika Panda协作机器人和MIR移动机器搭建了一个复合机器人平台,在IRWoZ数据集上进行对话状态跟踪、对话行为生成和响应生成,帮助模拟例如工业机器人的组装和定位任务,移动工业机器人的交付和定位任务等对话集,以提供更有意义的任务导向反应,指导机器人实现更人性化的响应生成指令,从而提高用户体验,并保证较高的任务完成率。
开发全新框架
斯坦福大学另外一项研究也非常有趣,他们正面向机器人复杂操作,开发基于“大语言模型”的任务规划新框架。该文献名为《Text2Motion: From Natural Language Instructions to Feasible Plans》。
该文献聚焦于如何在符号和几何层面上验证长期LLM(大语言模型)生成规划的正确性和可行性,并提出一种基于语言的规划框架Text2Motion,它将LLM与学习技能策略库和策略序列优化器连接起来,以解决几何上复杂的顺序操作任务。
该文献尝试了一种全新的集成搜索算法和规划终止方法,采取将LLM任务规划与策略序列优化交织在一起的方法,使得机器人可以针对训练期间技能策略看不到的任务,构建几何上可行的规划,并从自然语言指令中推断目标状态,以验证规划的完成情况。
论文研究发现的集成方法通过预测根据任务规划排序的学习技能的成功概率来确保LLM任务规划的可行性,从而确保其正确性。这使得其在一系列具有挑战性的桌面操作任务中实现了64%的成功率,远高于先前基于语言的规划方法13%的成功率。
在他们的研究中,同样采取了开源性更强的Franka Emika机器人。
结语与未来
更多研究人员相信,ChatGPT解锁了一种新的机器人范式,并允许潜在的非技术用户在循环中,在监控机器人性能的同时向大型语言模型 (LLM) 提供高级反馈,这使得有望将机器人技术推广到更广泛的受众,基于语言的机器人控制系统已经奠定了把机器人从科学实验室带到日常用户手中的基础。
负责Franka机器人在亚太区推广的卫卜源表示:全球针对ChatGPT的研究还处于初始阶段,机器人 ChatGPT的结合应用更是刚刚起步,还存在很多漏洞以及可完善的空间。但对于传统协作机器人来讲无疑是个巨大的机会与挑战。机器人 ChatGPT的结合应用跳过了传统的示教编程,这就意味着机器人只需要提供更加稳定的底层开发平台和反馈更加详细的底层数据,比如位置信息,速度信息,力反馈信息等。对于这个变化是否会给传统机器人行业带来翻天覆地的变化,让我们一起拭目以待!。
花粉社群VIP加油站
猜你喜欢