资讯信息
Information从被动工具到智能伙伴:亚马逊Nova Act重新定义浏览器本质
时间:2025-04-02文章编辑:科工云网
2025 年 4 月 1 日,亚马逊正式发布通用型 AI 智能体 Nova Act,凭借 “操控浏览器自主执行任务” 的颠覆性能力,重新定义了人类与互联网的交互方式。这款由亚马逊 AGI 实验室研发的技术新星,不仅能替代用户完成购物、订票等日常操作,更标志着 AI 从 “被动应答” 向 “主动行动” 的历史性跨越。
它不仅是浏览器的AI代理,更是一个能理解意图、自主决策、甚至“替你思考”的智能助手。

让 AI 像人类一样 “看懂屏幕、精准操作”
Nova Act 的技术突破源于其多模态交互架构:
视觉理解:通过自研的 Nova 基础模型(如 Nova Micro/Lite/Pro)解析网页内容,精准识别按钮、表单、文本等元素;
行为模拟:结合 ScreenSpot Web Text 94% 的高分能力,模拟人类操作逻辑,自动完成点击、滑动、输入等动作;
流程控制:开发者可通过 SDK 将复杂任务拆解为原子级指令(如 “搜索机票→比价→选择航班→支付”),并设置人工介入节点(如支付前确认),平衡效率与安全性。
维度 |
传统 AI |
Nova Act |
交互方式 |
仅文本对话 |
文本 + 视觉 + 行为全链路控制 |
任务完成度 |
需用户手动操作后续步骤 |
自主完成闭环流程 |
可靠性 |
依赖固定规则 |
动态学习网页结构,适应性更强 |
你的浏览器 “数字分身”
Nova Act不是个“哑巴AI”,它能通过自然对话理解你的需求。比如:“帮我找附近评分4.5分以上的川菜馆,还要有午市套餐。”,“明天下午3点前,把会议资料发给团队,并提醒所有人确认。”
它甚至能看懂网页上的文字和图片,帮你快速筛选信息,比你刷手机还快!
以上例子是通过自研的 Nova 基础模型(如 Nova Micro/Lite/Pro)解析网页内容,精准识别按钮、表单、文本等元素;通过 Nova Act SDK 调用浏览器操作、API 接口等功能,快速搭建原型并结合 ScreenSpot Web Text 94% 的高分能力,模拟人类操作逻辑,自动完成点击、滑动、输入等动作。
内部测试中,Nova Act 在网页交互任务上超越 OpenAI 的 Operator 和 Anthropic 的 Computer Use;基于亚马逊云的算力优化,运行成本比竞品低 75%。
AI 时代的 “数字劳动力” 崛起
亚马逊官方说,Nova Act在网页交互能力上拿了高分!比如在测试中,它能精准识别网页上的文字和按钮,完成任务的成功率比OpenAI的CUA和Anthropic的Claude高不少。不过,它现在还处于“研究预览版”,可能偶尔会“翻车”,但开发者已经在疯狂优化啦!
Nova Act由前OpenAI大牛带队研发,目标是“让AI像人类一样用电脑”是亚马逊 AGI 实验室的首个公开成果,其技术路径(任务分解 + 人机协作)为通用人工智能提供了关键参考。
生产力革命:
客服、数据录入等岗位效率提升 10 倍,成本降低 70%。
社会革命:
订票、预约挂号、报名活动,它能记住你的信息,一键搞定。批量处理任务:比如帮你比价购物,找到最划算的套餐;甚至帮你整理邮件,分类标记重要信息。
AI不是抢工作,而是让你更自由
Nova Act的出现,让我们看到AI不再只是“聊天工具”,而是能真正帮人类解放双手的生产力工具。
Nova Act 的发布仅是开端。未来,随着多模态模型的迭代和场景拓展,AI 智能体或将实现:
虚实融合:通过 AR 眼镜直接操控物理世界(如语音控制家电);
自主决策:无需人工干预完成复杂任务(如策划婚礼、管理投资组合);
伦理框架:全球协作制定 AI 操作规范,确保技术普惠而非垄断。
你最想让Nova Act帮你做什么?
当 Nova Act 让浏览器成为 AI 的 “数字手脚”,它不仅是技术突破,更是人类与 AI 关系的重构。在这里,互联网不再是需要 “亲力亲为” 的战场,而是 AI 代劳的 “数字疆域”。这场由亚马逊点燃的智能体革命,正在重塑每个人的数字生活 —— 而你,准备好使用Nova Act了吗?