布朗大学的研究人员开发了可以在机器人和动画人物中产生运动的AI模型
欧易(okx)交易所是一款主流数字货币交易平台,可以查看主流数字货币实时价格,支持100多种数字货币交易,马上来体验吧!
布朗大学的研究人员开发了一种名为motionglot的人工智能模型,该模型能够通过简单的文本输入生成机器人和动画人物的运动。例如,用户只需输入“向前走几步并正确执行”,motionglot就能生成相应的动作指令。
MotionGlot的显著优势在于其能够跨不同类型的机器人和人物“翻译”运动,从人形生物到四足动物等。这为各种机器人应用以及不同环境和情境下的运动生成提供了可能。
布朗大学计算机科学专业的学生Sudarshan Harithas博士表示:“我们将动作视为另一种语言。就像我们可以将语言从英语翻译成中文一样,现在我们可以将基于语言的命令转换为跨多个实施例的相应操作。这将开启一系列全新的应用。”
这项研究得到了海军研究办公室的支持,并将于本月晚些时候在2025年亚特兰大的机器人和自动化国际会议上展示。该研究由Harithas及其导师、布朗大学计算机科学助理教授Srinath Sridhar共同完成。
大型语言模型如ChatGPT通过“隔壁预测”生成文本,将语言分解成一系列令牌或小块,如单个单词或字符。给定一个或一串令牌,语言模型可以预测下一个可能的令牌。这些模型在文本生成方面非常成功,研究人员开始采用类似的方法来处理运动。运动被分解成组成部分,例如步行时腿部的离散位置,然后转换成令牌。通过隔壁预测,流畅的运动得以生成。
这种方法的一个挑战是,不同体型的运动可能大不相同。例如,一个人在街上遛狗时,人和狗都在“步行”,但他们的实际动作却截然不同。人是直立行走的,而狗是四足行走的。Harithas表示,MotionGlot能够将一种体型的运动转移到另一种体型上。因此,无论是指挥类人机器人还是机器人狗,用户输入“直线向前行走”的指令都能得到正确的运动输出。
为了训练模型,研究人员使用了两个数据集,每个数据集都包含数小时的带注释的运动数据。Quad-loco数据集包含类似狗的四足机器人的运动及其描述性文本。另一个名为ques-cap的数据集包含真实的人类运动及其详细的标题和注释。
利用这些训练数据,MotionGlot能够从文本提示中可靠地生成适当的动作,甚至是之前未见过的动作。在测试中,该模型能够重新创建特定的指令,如“机器人向后走,向左走并向前行走”,以及更抽象的提示,如“机器人愉快地行走”。它甚至可以用运动来回答问题,例如,当被问及“您能告诉我有氧运动中的运动吗?”时,模型会生成一个人慢跑的动作。
Sridhar表示:“这些模型在接受大量数据训练时效果最佳。如果我们能收集大规模数据,就可以轻松扩展模型。”
研究人员认为,MotionGlot当前的功能和跨实施方案的适应性在人机协作、游戏和虚拟现实、数字动画和视频制作中具有广阔的应用前景。他们计划公开该模型及其源代码,以便其他研究人员可以使用并在此基础上进行扩展。
以上就是布朗大学的研究人员开发了可以在机器人和动画人物中产生运动的AI模型的详细内容
欧易(okx)交易所是一款主流数字货币交易平台,可以查看主流数字货币实时价格,支持100多种数字货币交易,每日第一时间推送最新币圈消息给大家,马上来体验吧!
欧交易所app下载官网 » 布朗大学的研究人员开发了可以在机器人和动画人物中产生运动的AI模型