browser-use 是一款基于 Python 的开源 AI 自动化工具,旨在通过集成大型语言模型(LLM)与浏览器操作,实现网页任务自动化、智能化。browser-use 可以作为智能体操作浏览器的工具框架进行使用,是智能体应用开发者值得关注学习的项目。本文将通过 DeepSeek-R1 浏览器自动化框架,手把手教你实现浏览器自动化操作。

一、项目介绍

bowser-use 是一个允许 AI 智能体控制浏览器的 Python 库,它提供了一个简单的接口,使 AI 代理能够执行各种浏览器操作,如导航、点击、输入文本等。核心功能如下:

  • 浏览器自动化:支持网页导航、表单填写、数据抓取等操作,结合 Playwright 实现高效的浏览器控制。
  • AI 决策能力:通过 LangChain 框架兼容多种 LLM(如 GPT-4、Claude、Deepseek 等),利用模型生成操作指令并处理复杂逻辑。
  • 多标签页管理:自动切换和管理多个浏览器标签页,提升多任务处理效率。
  • 自我纠正机制:在操作遇到错误时自动调整策略或重试,提高任务成功率。
  • WebUI 界面:基于 Gradio 提供图形化操作界面,支持实时查看浏览器交互和屏幕录制功能。
  • 跨平台与自定义:支持本地或 Docker 部署,允许用户使用自己的浏览器实例(如 Chrome),保留登录状态和历史记录。

bowser-use 通过结合 AI 模型与浏览器自动化技术,显著降低了复杂网页任务的开发门槛,适用于开发者、测试工程师及数据分析师等群体。其模块化设计和开放生态也使其具备较高的扩展性。

  • 项目 github 地址(目前已有 45.1 K stars):https://github.com/browser-use/browser-use
  • 项目文档地址:https://docs.browser-use.com/introduction

二、工具准备与环境搭建

2.1 所需工具

  • DeepSeek-R1 框架:基于 Selenium 的自动化库(GitHub

  • Python 3.8+

  • Chrome/Firefox 浏览器

  • 浏览器驱动(ChromeDriver / GeckoDriver)

2.2 驱动配置

2.3 安装

创建 python 虚拟环境:

安装 browser-use 包:

运行以下命令,安装 playwright:

根据使用的大模型服务,在环境变量设置里配置相应的 API key:

  • OPENAI_API_KEY(gpt-4o 模型)
  • ANTHROPIC_API_KEY(claude 模型)
  • GEMINI_API_KEY(gemini 模型)
  • DEEPSEEK_API_KEY(deepseek 的 r1、v3 模型)

三、项目模块分析

3.1 各组件的相互关系
  • Agent 是核心协调者:Agent 负责协调所有组件的工作,是整个流程的中心
  • Controller 是动作执行者:Controller 负责执行各种浏览器操作,是 Agent 和 Browser 之间的桥
  • Browser 是操作对象:Browser 负责实际的浏览器操作,与网页进行交互
  • DomService 是 DOM 处理者:DomService 负责提取和处理 DOM 元素,为 Browser 提供支持
  • MessageManager 是消息管理者:MessageManager 负责管理与 LLM 的消息交互
  • LLM 是决策者:LLM 负责根据当前状态决定下一步操作
  • ProductTelemetry 是记录者:ProductTelemetry 负责记录各种事件,用于分析和改进
项目代码结构

Browser-Use 项目代码结构如下:

3.2 执行流程时序分析

3.2.1 初始化阶段

初始化阶段主要包括以下步骤:

  1. 用户创建代理:用户提供任务描述、语言模型和浏览器实例,创建 Agent 对象
  2. 初始化消息管理器:Agent 初始化 MessageManager,设置系统提示和任务消息
  3. 初始化控制器:Agent 初始化 Controller,注册各种浏览器操作
  4. 记录遥测事件:Agent 通过 ProductTelemetry 记录代理启动事件
  5. 完成初始化:Agent 向用户返回初始化完成的信息

这个阶段建立了代理运行所需的所有组件和环境。

3.2.2 执行循环阶段

执行循环阶段是整个流程的核心,代理会重复执行以下步骤,直到任务完成或达到最大步骤数:

获取浏览器状态

  • Agent 从 Browser 获取当前状态
  • Browser 通过 DomService 获取 DOM 元素和可点击元素
  • Browser 返回浏览器状态给 Agent

准备 LLM 输入

  • Agent 将浏览器状态添加到 MessageManager
  • Agent 从 MessageManager 获取完整的消息列表

获取下一步操作

  • Agent 将消息发送给 LLM
  • LLM 返回 AgentOutput,包含思考过程和要执行的动作
  • Agent 将模型输出添加到 MessageManager

执行动作

  • Agent 通过 Controller 执行动作

  • Controller 根据动作类型调用 Browser 的不同方法:

    导航操作:导航到指定 URL

    点击操作:点击页面上的元素

    输入操作:在元素中输入文本

    完成操作:标记任务完成

  • Controller 返回 ActionResult 给 Agent

记录和更新状态

  • Agent 通过 ProductTelemetry 记录步骤执行事件
  • Agent 更新自身状态,包括成功/失败状态

这个循环体现了 Browser-Use 项目的核心功能:通过 LLM 理解当前浏览器状态,决定下一步操作,并通过控制器执行操作,实现自动化浏览器任务。

3.2.3 结束阶段

当任务完成或达到最大步骤数时,代理会执行以下步骤:

  1. 记录结束事件:Agent 通过 ProductTelemetry 记录代理结束事件。
  2. 返回历史记录:Agent 向用户返回 AgentHistoryList,包含所有步骤的详细信息。
  3. 可选生成 GIF:如果启用了 GIF 生成功能,Agent 会处理历史记录和截图,生成一个展示整个过程的 GIF 文件。

四、运行示例

电商自动化下单:以淘宝为例

4.1 全流程代码实现

4.2 关键操作流程图

五、扩展应用场景

  1. 比价系统开发:自动抓取多个平台价格

  2. 库存监控脚本:实时监测商品库存状态

  3. 数据采集工具:批量获取商品信息

  4. 抢购机器人:高并发秒杀场景

 写在最后:更多AI学习资料请添加学习助手领取资料礼包

视频学习资料:

从0开始开发超级AI智能体,干掉所有重复工作

  • 基于字节的coze平台从0到1搭建我们自己的智能体
  • 从coze到超级创业个体:2025是AI Agent大爆炸的元年!
  • 搭建智能体的七大步骤:需求梳理、软件选型、提示工程、数据库、构建 UI 界面、测试评估、部署
  • 你的智能体如何并行调用多个通用AI大模型?
  • 实战案例:AI Agent提取小红书文案以及图像进行OCR文字识别并同步写入飞书多维表格
  • 实战案例:AI Agent提取抖音爆款短视频链接中的文案,基于大模型和提示词完成符合小红书风格和作者特点的文案仿写

DeepSeek AI Agent +自动化助力企业实现 AI 改造实战

  • DeepSeek 大模型的本地部署与客户端chatbox本地知识库
  • 程序员的跨时代产品,AI 代码编辑器cursor深入浅出与项目构建
  • 软件机器人工具影刀RPA工业化地基本使用
  • 影刀RPA WEB自动化采集Boss直聘岗位信息并存储
  • 影刀AI Power与DeepSeek 工作流构建影刀AI Agent
  • AI HR实战:结合影刀RPA+DeepSeek AI智能体,实现智能自动招聘机器人

大模型技术+ 数字人+混剪造就副业王炸组合

  • 数字人的概念与价值
  • 当前数字人的时代背景
  • 数字人的市场需求
  • 数字人与自媒体的关系和发展路径
  • 商业化数字人的变现之路
  • 基于coze搭建数字人超级智能体
  • 大模型技术+数字人+混剪=最强副业方向
  • AI大模型与数字人造就3分钟获客300条精准线索
  • AI副业接单渠道与流量变现
  • 程序员开发的AI数字人实战
Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐