微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

文章来源：IT之家 • 2025年2月26日上午11:03 • AI • 阅读 35

北京时间今日凌晨，微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比，Magma 具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，此外，Magma 还能内置了心理预测功能，增强了对未来视频帧中时空动态的理解能力，能够准确推测视频中人物或物体的意图和未来行为。

用户可以用 Magma 来自动下电商订单、查询天气；也可以自动操作实体机器人，或者在下真实象棋时获得帮助。

根据官方介绍，Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如，它可以帮助家用机器人学习如何整理以前从未见过的物品，或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明。

Magma 是能够适应数字和物理环境中新任务的 VLA（IT之家注：视觉语言动作）基础模型之一，能够有效地从海量的公开视觉和语言数据中学习知识，从而融合语言、空间和时间智能，应对数字和物理世界中的复杂任务和环境。

IT之家附开源链接：https://microsoft.github.io/Magma/

免责声明：文章内容来自IT之家

本站不对其内容的真实性、完整性、准确性给予任何担保、明示、暗示和承诺，本文仅供读者参考!

数码迷尊重原作者的辛勤劳动并致力于保护原著版权以及相关的知识产权，所转载的文章，其版权归原作者所有。

如本文内容影响到您的合法权益(内容、图片等)，请通过邮箱5937331#qq.com联系我们，我们将第一时间回复处理。

人工智能微软

赞 (0)

谷歌推出 Gemini Code Assist 个人版编程工具，免费可用

上一篇 2025年2月26日上午11:03

零跑 B10 汽车内置 DeepSeek + 通义千问模型，3 月 10 日预售

下一篇 2025年2月26日上午11:03

AI

三星“AI 订阅俱乐部”受热捧，半数高端电视买家选择订阅

2025年3月9日
AI

调查显示 ChatGPT 为全球职场最受欢迎 AI 工具，印度使用率居首

2025年3月9日
AI

健康专家警示：AI 伴侣可补充但不能替代现实社交关系

2025年3月9日
AI

AI 编程助手受投资者热捧，消息称 Cursor 开发商 Anysphere 正以 100 亿美元估值进行融资

2025年3月9日
AI

作家指控 Meta AI 训练侵犯版权，法官允许诉讼继续推进

2025年3月9日
AI

AI 玩手机越玩越 6，西湖大学发布会自我进化的智能体 AppAgentX

2025年3月9日