如果你懒得打扫房间,就交给机器人吧。
如果你想吃零食,机器人也可以帮你,薯片和纸巾都给你准备好了。
此外,这种机器人只需要单一的预训练模型,就可以从不同的感官输入中生成命令来执行各种任务。
要知道,以前机器人执行命令,处理这些不同的任务,IO规范,神经网络架构,目标都是不一样的。
现在,谷歌解决了这个问题,他们开发了一个变形金刚模型:RT—1,甚至被昵称为RoboGPT。
更重要的是,RT—1代码已经开源!
具体原则
我们整体来看一下RT—1主要靠:7+3+1来执行任务
所谓7是指它的手臂有7个自由度,分别是X,Y,Z,滚转,俯仰,偏航和开爪。
3指基本运动的三个维度,即在地面运动时的X,Y和偏航。
1指的是对RT—1的整体控制,也就是切换这三种模式:手臂控制,基本运动,或者任务终止。
RT—1执行任务时,其底层逻辑是纯监督学习。要做好监督学习,必须满足两个条件:
丰富的数据集和强大的神经结构。
首先,数据集。RT—1在大规模,真实世界的机器人数据集上进行训练,可以用四个数字来概括,分别是:130,000,700+,13,17:
包括13万段,
涵盖700多项任务,
使用了13个机器人,
持续了17个月。
然后是RT—1的结构其任务执行的过程如下图所示
具体来说,通过ImageNet预训练的卷积神经网络对图像和文本进行处理。
其中,为了保证文字和图像能够以同样的方式很好地融合,RT—1还使用了电影层,这是一种通过语言嵌入来调节视觉活动的经典技术。
通过这种方式,RT—1可以提取与手头任务相关的视觉特征。
然后这些视觉特征会被令牌学习器模块计算为一组紧凑的令牌传递给Transformer,使得机器人的推理速度提高了2.4倍以上。
接下来,Transformer会对这些令牌进行处理,生成离散的操作令牌,操作令牌就是开头提到的7+3+1。
通过控制手臂,基本动作和模式,你可以执行任务。
在执行任务的整个过程中,RT—1还会以3Hz的频率进行闭环控制和命令操作,直到终止操作发生或者预设的时间步数用完。
但是,既然这个机器人可以执行多项任务,那么它执行一般任务的能力如何呢。
研究人员分别测试了RT—1对干扰物数量,不同背景和环境以及真实场景的鲁棒性。
对比其他基于模仿学习的基线,结果如下图所示。
显然,RT—1在每一个任务类别上都明显优于之前的模型。
研究团队
这个机器人来自谷歌,研究团队成员比较庞大,来自三个研究团队:
首先,Google Research旗下的细分团队Google的机器人技术目前正在探索如何教授机器人可转移的技能。
他们不断公开他们的训练数据,以帮助推进这一领域的最先进水平。
然后是日常机器人,是X— Moon Landing Factory的一个细分团队,和Google团队合作目前,他们正在制造一种新型机器人,一种万能机器人,它可以自我学习,帮助任何人做任何事情
还有谷歌研究院,是谷歌内部进行各种最前沿技术研究的部门他们也有自己的开源项目,发布在GitHub上
富国银行表示购买这两只高收益股息股票——包括一只收益率为 17% 的股票
由于 EPS 以相当正常的 4:1 的比率超过未达预期,23 年第一季度的收益被描述为“好于预期”。也……(33,086)人阅读时间:2023-05-25埃隆·马斯克 (Elon Musk) 购买了这座价值 50,000 美元的小房子用作招待所,现在房地产投资信托基金将用它来建造经济适用房社区
亿万富翁通常会购买豪宅,但埃隆·马斯克 (Elon Musk) 并不是一般的亿万富翁。 2022 年,这位……(33,003)人阅读时间:2023-05-25博弈论为债务僵局中的市场平静提供了线索
美国正快速走向信用违约,专家们普遍认为这将对经济和金融市场造成灾难性后果。 那么,为什么……(32,896)人阅读时间:2023-05-23日本《西南投资》获评审团特别奖! -第七届大学生IR演讲比赛
2月17日(周五),在东京都日本桥兜町“KABUTO ONE”举办的“第7届大学生IR发表会”上,我校……(33,356)人阅读时间:2023-05-12低碳氢为基础设施投资者提供了有吸引力的替代投资机会
BCG 和 EDHECinfra 的新研究发现,未来 30 年,绿色氢能的投资机会将达到 6 万亿美元至 1……(33,388)人阅读时间:2023-05-12