Generalist AI发布GEN-1,任务成功率高达99%,只用人类数据

张开发
2026/6/9 12:05:26 15 分钟阅读
Generalist AI发布GEN-1,任务成功率高达99%,只用人类数据
Generalist AI发布GEN-1任务成功率高达99%只用人类数据以下文章来源于新物种Sinovum 作者关注具身智能的新物种Sinovum.AI时代的「人类观察室」。具身模型成功跨越落地的可能性真的来了编辑/新物种就在今天Generalist 正式发布 GEN-1。这是一款在 GEN-0 基础之上进一步扩展数据和算力、并由算法进步加速催生的新一代具身基础模型。它不再停留于验证可行性而是首次跨越了一个更现实的阈值广泛物理任务的商业可行性。时长03:21当前具身智能领域的主流思路相信机器人模型存在 Scaling Law——更多的真实物理交互数据、更大的算力能够持续且可预测地提升智能。但是一个新的问题随之浮现这种提升什么时候才能从「实验室可用」变成「产线可靠」去年11月美国具身智能明星公司 Generalist AI 用 GEN-0首次在大规模真实数据的尺度上验证了机器人领域存在Scaling Law被业内视为将物理AI带入「预训练时代」的标志性事件。如今时隔仅五个月这家公司再次抛出重磅更新。GEN-1 建立在GEN-0 的 Scaling Law 基础之上通过进一步扩展数据、算力和算法创新首次将多项物理任务的平均成功率提升至 99%任务完成速度比最先进水平快约 3 倍而达到这些结果仅需 1 小时的机器人数据。值得一提的是准确来说 GEN-1 不只是一个模型而是一个包含推理优化、模型调用等系统级组件的完整系统——这与大语言模型如 GPT-4的 API 服务类似。Generalist AI将这种新能力定义为 “掌握”Mastery即可靠性、速度与即兴应变能力的综合。GEN-1 不仅能够长时间、高成功率地重复执行任务还能在意外场景中自主创造恢复策略。那这家公司具体带来了哪些核心突破01.成功率从64%到99%可靠性跨越「生产就绪」红线GEN-0 在多项任务上的平均成功率为 64%虽然远好于从头训练但距离能放心部署仍有距离。GEN-1 则实现了质变在汽车零部件拣配、折叠 T 恤、维护机器人吸尘器、整理积木、折叠纸盒、手机装盒等六项任务上成功率全部突破 99%。其中维护机器人吸尘器任务上GEN-1 达到 99%而 GEN-0 仅 50%折叠纸盒任务上GEN-1 达到 99%GEN-0 为 81%手机装盒任务上GEN-1 达到 99%GEN-0 为 62%。作为对比没有经过预训练的从头训练版本平均成功率仅有 19%。这些数据意味着GEN-1 已经能够在真实生产环境中连续数小时无需人工干预地完成任务。例如在汽车零部件拣配演示中机器人自主运行超过一小时折叠 T 恤连续 86 次整理积木连续 1,800 次——全部为 1 倍速实拍无加速处理。02.打破速度屏障比前代快3倍还比人类快机器人领域长期存在一个“速度屏障”灵巧操作演示总是慢动作。GEN-1 首次突破了这一屏障。以折叠纸盒为例GEN-0 和同期其他模型如 π0均需约 34 秒。GEN-1 将这一时间压缩至 12.1 秒速度提升 2.8 倍。手机装盒任务上GEN-1 仅需 15.5 秒同样是 GEN-0 的 2.8 倍。更关键的是GEN-1 能够以快于人类演示的速度完成操作同时还能应对新物体的物理特性——这意味着模型已经内化了高速运动下的动力学规律而非简单模仿。03.即兴应变从按脚本执行到意外中自救GEN-0 的核心创新是“和谐推理”Harmonic Reasoning让模型同时思考和行动。GEN-1 在此基础上展现出了全新的即兴应变能力。在一个长周期汽车零部件拣配任务中如果垫圈被意外碰歪GEN-1 可以自主选择多种恢复策略将物体放回重新抓取、部分插入缝隙利用外部灵巧性辅助重抓、甚至换用另一只手进行双手协同的在手重抓。对于大型可变形物体如衣物即使出现极不规则的构型模型也能自己找出恢复方法。这些行为远超出训练分布直接来自于大规模预训练中涌现的物理常识。Generalist 认为正是这种即兴应变智能让机器人能够在非结构化环境中真正“生存”。时长01:3204.仅需1小时任务数据GEN-0 虽然证明了预训练的好处但要适配一个新任务仍需要收集相当数量的任务特定数据。GEN-1 引入了更高效的后训练技术仅需约 1 小时的机器人数据就能达到上述 99% 成功率和 3 倍速度。在某些测试中GEN-1 甚至可以用比 GEN-0 少 10 倍的任务特定数据和微调步骤达到相当的性能。这意味着客户部署的门槛被大幅降低——不再需要为每个新场景耗费数周采集数千条演示数据。05.预训练数据规模翻倍从27万到50万小时支撑 GEN-1 能力跃升的是 Generalist 持续扩展的真实世界物理交互数据集。目前该数据集已包含超过 50 万小时的高保真操作数据涵盖全球数千个家庭、仓库、工厂、面包店、自助洗衣店等场景。数据运营每周新增超过 1 万小时且仍在加速。值得一提的是GEN-1 的预训练数据全部来自人类佩戴低成本可穿戴设备完成的数百万种活动没有使用任何机器人数据。Generalist 表示这提供了一个存在性证明无需依赖昂贵且难以扩展的遥操作或仿真数据集仅通过真实人类活动的预训练就能实现高水平的掌握能力。06.Scaling Law新维度预训练收益可持续预测GEN-0 证明了预训练数据规模与下游性能之间存在幂律关系。GEN-1 进一步验证了这一规律随着预训练数据从 27 万小时扩展到 50 万小时模型在所有下游任务上的后训练性能均持续提升且提升幅度可预测。更重要的是GEN-1 还展示了 “数据效率的缩放”——即达到相同性能所需的任务特定数据量随着基础模型能力的增强而指数级下降。这为未来的模型迭代指明了一条清晰路径每一代新模型都将以更少的任务数据解锁更复杂的可掌握任务。GEN-1 的诞生并非单纯扩大数据。团队重新设计了分布式训练基础设施以支持 PB 级物理交互数据开发了定制内核和新型分页注意力机制paged attention来实现实时推理打磨后训练技术并强化控制精度。此外Generalist 还在全球部署了数千只机器人手来采集独特的物理活动。这些工程突破同样为后续模型奠定了基础。07.还有更多Generalist 也坦承GEN-1 并非万能。虽然他们已经展示了多项 99% 成功率的任务但并非所有尝试过的任务都能达到这一水平。某些应用场景可能需要更高的成功率如 99.9%或更快的速度才能真正落地。此外即兴应变能力虽然强大但涌现行为有时也可能成为隐患——模型可能会做出预期之外的物理动作这在真实环境中可能带来风险。Generalist 表示他们正在加强对齐方法的研究确保模型的行为精确符合用户意图。随着数据引擎继续加速运转下一代模型有望掌握更复杂的任务同时进一步降低任务特定的数据需求。物理世界的通用智能或许正在从愿景走向现实。你认为这种“从人类活动中学习”的路径能否真正替代传统的遥操作和仿真数据采集GEN-1 的 99% 成功率是否足以让你信任它进入你的工厂或家庭欢迎在评论区留下你的看法。参考链接https://generalistai.com/blog/apr-02-2026-GEN-1- End -

更多文章