资讯详情-科工云网

资讯信息

Information

大咖观点

从被动工具到智能伙伴：亚马逊Nova Act重新定义浏览器本质

时间：2025-04-02文章编辑：科工云网

2025 年 4 月 1 日，亚马逊正式发布通用型 AI 智能体 Nova Act，凭借 “操控浏览器自主执行任务” 的颠覆性能力，重新定义了人类与互联网的交互方式。这款由亚马逊 AGI 实验室研发的技术新星，不仅能替代用户完成购物、订票等日常操作，更标志着 AI 从 “被动应答” 向 “主动行动” 的历史性跨越。

它不仅是浏览器的AI代理，更是一个能理解意图、自主决策、甚至“替你思考”的智能助手。

让 AI 像人类一样 “看懂屏幕、精准操作”

Nova Act 的技术突破源于其多模态交互架构：

视觉理解：通过自研的 Nova 基础模型（如 Nova Micro/Lite/Pro）解析网页内容，精准识别按钮、表单、文本等元素；

行为模拟：结合 ScreenSpot Web Text 94% 的高分能力，模拟人类操作逻辑，自动完成点击、滑动、输入等动作；

流程控制：开发者可通过 SDK 将复杂任务拆解为原子级指令（如 “搜索机票→比价→选择航班→支付”），并设置人工介入节点（如支付前确认），平衡效率与安全性。

维度	传统 AI	Nova Act
交互方式	仅文本对话	文本 + 视觉 + 行为全链路控制
任务完成度	需用户手动操作后续步骤	自主完成闭环流程
可靠性	依赖固定规则	动态学习网页结构，适应性更强

你的浏览器 “数字分身”

Nova Act不是个“哑巴AI”，它能通过自然对话理解你的需求。比如：“帮我找附近评分4.5分以上的川菜馆，还要有午市套餐。”，“明天下午3点前，把会议资料发给团队，并提醒所有人确认。”

它甚至能看懂网页上的文字和图片，帮你快速筛选信息，比你刷手机还快！

以上例子是通过自研的 Nova 基础模型（如 Nova Micro/Lite/Pro）解析网页内容，精准识别按钮、表单、文本等元素；通过 Nova Act SDK 调用浏览器操作、API 接口等功能，快速搭建原型并结合 ScreenSpot Web Text 94% 的高分能力，模拟人类操作逻辑，自动完成点击、滑动、输入等动作。

内部测试中，Nova Act 在网页交互任务上超越 OpenAI 的 Operator 和 Anthropic 的 Computer Use；基于亚马逊云的算力优化，运行成本比竞品低 75%。

AI 时代的 “数字劳动力” 崛起

亚马逊官方说，Nova Act在网页交互能力上拿了高分！比如在测试中，它能精准识别网页上的文字和按钮，完成任务的成功率比OpenAI的CUA和Anthropic的Claude高不少。不过，它现在还处于“研究预览版”，可能偶尔会“翻车”，但开发者已经在疯狂优化啦！

Nova Act由前OpenAI大牛带队研发，目标是“让AI像人类一样用电脑”是亚马逊 AGI 实验室的首个公开成果，其技术路径（任务分解 + 人机协作）为通用人工智能提供了关键参考。

生产力革命：

客服、数据录入等岗位效率提升 10 倍，成本降低 70%。

社会革命：

订票、预约挂号、报名活动，它能记住你的信息，一键搞定。批量处理任务：比如帮你比价购物，找到最划算的套餐；甚至帮你整理邮件，分类标记重要信息。

AI不是抢工作，而是让你更自由

Nova Act的出现，让我们看到AI不再只是“聊天工具”，而是能真正帮人类解放双手的生产力工具。

Nova Act 的发布仅是开端。未来，随着多模态模型的迭代和场景拓展，AI 智能体或将实现：

虚实融合：通过 AR 眼镜直接操控物理世界（如语音控制家电）；

自主决策：无需人工干预完成复杂任务（如策划婚礼、管理投资组合）；

伦理框架：全球协作制定 AI 操作规范，确保技术普惠而非垄断。

你最想让Nova Act帮你做什么？

当 Nova Act 让浏览器成为 AI 的 “数字手脚”，它不仅是技术突破，更是人类与 AI 关系的重构。在这里，互联网不再是需要 “亲力亲为” 的战场，而是 AI 代劳的 “数字疆域”。这场由亚马逊点燃的智能体革命，正在重塑每个人的数字生活 —— 而你，准备好使用Nova Act了吗？

官方动态

资讯信息

从被动工具到智能伙伴：亚马逊Nova Act重新定义浏览器本质

官方微信

官方微博

云平台

工业物联

智能硬件

数字化服务

增值服务