Navigation menu

新闻中心

Google掌握了机器人最强的大脑,并完成了句子中

吉文Xi作者Chen Junda Yunpeng Zhidongxi在9月26日报道说,Google DeepMind推出了Gemini Robotics Robotics Robotics Robotics Robotics Robotics 1.5系列,该系列将通过链链和模型机制进一步改善机器人自主权,以更好地求解多步。 Google称这是将AI代理带入物理世界的重要一步。 Google DeepMind发布的两种模型分别是Gemini Robotics 1.5和Gemini Robotics-ER 1.5。约会是Google最强的VLA(视觉操作)模型,它可以将视觉信息和文本说明转换为机器人控制命令,主要充当机器人的小脑。该模型将在采取行动并展示思维过程之前进行思考。它也可以意识到能够负担得起的不同机器人本体论是学习的技能。 Gemini Robotics-ER 1.5是Google迄今为止最强的VLM模型(视觉语言模型)。它可以理解物理世界,更像是RO的大脑机器人。能够调用数字工具并创建详细的多步计划以完成任务。该模型在对基准测试的空间理解中达到了最先进的性能,以及进一步超过GPT-5,Gemini 2.5 Flash和其他模型的实施功能。配备上两个新型号的机器人还打开了完成复杂和长期任务的能力。例如,您可以要求机器人向当地人询问键入废物并将物品放在桌面上的当地人,以正确的垃圾桶。该模型可以准确理解这个复杂的请求,并驱动机器人完成任务。开发人员可以在Google AI Studio上通过Gemini API使用Gemini Robotics-ER 1.5型号,该工作室目前可供某些合作伙伴使用。 Google还发布了Gemini Robotics系列模型1.5的技术报告。技术报告:https://storage.googleapis.com/deepmind-media/gemini-bobotics/gemini-robotics-5-5-5-5-pch-pch-pdf模型模型链接:https://deepmind.google/models/gemini-bobotics/gemini-wobotics/gemini-robotics/1。基于基本的双子座模型,培训数据来自3个机器人。对于机器人,一天中的大部分时间活动都需要上下文信息和许多步骤要完成,这对于当前机器人来说是很困难的。为了帮助机器人完成复杂的许多逐步任务,Google DeepMind允许Gemini Robotics 1.5和Gemini Robotics-ER 1.5模型使用相同的代理框架进行了培训。体现的推理模型Gemini Robotics-ER 1.5坐标机器人活动(例如大脑)。该模型擅长在物理环境中计划和做出逻辑决策,并具有深入的空间理解。它可以与自然语言的用户互动,以判断任务是否成功和任务的发展。它还可以致电Google搜索和其他工具以查找信息,或使用第三方用户指定的任何功能。 Gemini Robotics-er 1.5提供了自然语言每个步骤的结构,而Gemini Robotics 1.5使用视觉和语言理解直接执行特定的动作。双子座机器人技术1.5还可以帮助机器人思考他们的行为,以更好地解决语义kumprop的作品,还可以解释他们用自然语言思维的过程,以使他们的决策更加清晰。这两种模型均建立在双子座模型家族上,使它们继承了双子座多模式世界,高级推理以及工具使用的常见能力的知识。此后,这两个模型适当地使用不同的数据集来专注于职责。合并后,机器人在长期活动和不同环境中概括的能力可以改善。双子座机器人技术1.5系列模型使用的一组训练数据包括三种方式:图像,文本和机器人传感器和动作数据。用于培训的机器人数据集是多种设备的,涵盖了数千个不同的任务,从握把和蛋,与两种武器合作,与类人类机器人执行每日复杂的任务。这些数据是从许多异源机器人平台中收集的,包括Aloha,Bi-Arm Francha和Apollo Humanoiole机器人。 ▲Gemini Robotics 1.5模型系列可以从开箱即用完成跨安装的任务。除了特定于机器人的数据集外,培训数据还包括来自Internet的公共文本,数据和视频集,因此该模型不仅具有与机器人相关的技能,而且还使用大型世界知识来提高整体整体能力。为了确保高质量和安全培训,必须在使用前严格处理所有数据。 Google DeepMind通过多阶段筛选,以确保数据符合相关性并删除低质量的样本和不合格的内容。数据集中的每个图像都配备了由Gemini和FlexCap模型生成的原始合成描述和描述,这有助于模型捕获细节图像中的上下文语义。最新一代硬件在训练过程中使用,包括TPU V4,V5P和V6E,并伴随JAX和ML Pathways Frameworks,以实现出色的培训和跨平台扩展。 2。依靠动作机制来实现交叉主体,并允许机器成为VLA模型,双子座机器人技术的使命是“理解说明并采取行动”。为了实现这一目标,研究人员引入了基本训练机制 - 移动运动(MT)。 MT的角色是在不同的机器人之间打破“ Hadlaof”。在传统方法中,如果机器人学会了一定的技能,则通常需要额外的培训才能移至另一个机器人。借助MT支持,Gemini Robotics 1.5可以直接实现不同生物之间的零拍传递。也就是说,即使该模型刚刚在机器人平台的平台上学习了“开放抽屉”,但这将与阿波罗人类机器人相同轨迹有助于模型以更详细的步骤破坏复杂的任务。例如,当您收到“帮助我清洁桌子”的说明时,该模型可以首先分为“杯子”,“移至水槽”和“放杯”等小步骤。此方法不仅减少了直接映射从语言到动作的难度,而且使模型在实施过程中更加稳定。如果杯赛在运动过程中掉落,它将立即调整轨迹的思想,并将更改为“取回杯赛”,而不仅仅是确定任务失败。与Gemini机器人技术1.5不同,Gemini Robotics-ER 1.5并不直接控制机器人以执行特定的动作,而是专注于体现的推理,并负责高度的任务计划和决策。在训练期间,双子座机器人技术1.5专门针对机器人活动所需的关键功能进行了优化。首先,它可以完成复杂的任务计划并在一系列合理的子任务中拆除长期目标。其次,它具有很强的空间推理能力,可以结合视觉和时间信息以了解对象的相对位置和运动。最后,它还可以对任务开发进行估计,实时判断该任务是否成功并且完成程度,并根据其调整以下操作。 ▲Gemini Robotics-ER 1.5可以完成Gemini Robotics-ER 1.5在15个学术基准上实现最高综合性能的活动,该活动超过了Gemini Robotics-ER 1.0和GPT-5等模型。它可以准确地绘制在视觉目标上的泄漏语言WAN,例如“指向桌子左下角的蓝色杯子”,或者如果机器人动作基于多视图信息实现了目标,则对于稳定实施序列活动非常重要。在整个系统中,Gemini Robotics-ER 1.5定位为或塞斯特拉。它收到人类的说明和环境反馈,制定一般计划,然后将这些计划转换为Gemini Robotics可以执行1.5的特定行动指令。它还具有调用外部工具(例如Web搜索)的能力,以确保机器人在面对复杂情况时仍然可以灵活地响应。但是,具有较高自主权和实施功能的机器人也可以带来安全风险。为此,Google DeepMind开发了新的安全性和对齐方式,包括顶级安全判断机制和更扎根的安全子系统(例如用于防止碰撞的系统)。 Google DeepMind还发布了Asimov安全基准版本,这是一个全面的数据集,可通过更好的边缘范围,改进的注释,新的安全类型和新的视频模式来评估和改善语义安全性。在Asimov基准上,双子座机器人技术1.5显示最先进的表现及其思维能力极大地有助于提高语义安全理解并更好地遵守物理安全障碍。结论:机器人模型的跨缔约同意逐渐形成与依赖单个数据和特定平台的Thosemertaditional训练方法不同。 Gemini机器人技术1.5系列模型允许机器人通过多二二个数据,动作转移机制以及集成的思维和推理范式将技能切换到平台,并在复杂环境中显示与人类相似的灵活性,从而扩展了机器人大学模型。它也是许多制造商生产机器人模型的目标之一。最近,Yushu Unifolm-WMA-0的开源机器人世界模型采用了各种体系结构,但它也具有许多机器人体的灵活性。交叉侵入可能会逐渐成为商定的,并且可以成为该行业的新轨道。 特别声明:上面的内容(包括照片或视频(如果有))已上传并由“ NetEase” Self-M发布爱迪亚平台。该平台仅提供信息存储服务。 注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。