browser-useを利用してブラウザ操作の自動化をやってみた

はじめに
できること
始め方
主な機能
まとめ

はじめに

　browser-useは、AIエージェントによるウェブブラウザの自動操作を実現するPythonライブラリです。大規模言語モデル（LLM）と連携し、自然言語での指示をブラウザ操作に変換できます。

GitHub - browser-use/browser-use: Make websites accessible for AI agents

Make websites accessible for AI agents. Contribute to browser-use/browser-use development by creating an account on GitH...

できること

Webスクレイピングの自動化

複雑なJavaScriptで生成されたページや動的コンテンツに対応
フォーム送信やボタンのクリックも自動化可能
例：
- Eコマースサイトの価格情報取得
- 不動産サイトの新着物件収集
- ニュースサイトの見出し取得

2. ブラウザベースのRPA実装

手動のブラウザ操作を自動化
複数タスクの順次処理による効率化
例：
- チケット管理システムの操作
- 定型レポートの作成・提出
- SNSへの投稿スケジューリング

3. SEOとコンテンツ調査

競合サイトや検索結果の分析を自動化
SEO戦略やコンテンツ制作に活用
例：
- Googleの検索結果ランキングのモニタリング
- キーワード調査とトレンド分析
- 競合サイトのバックリンクチェック

4. テスト自動化

ブラウザベースのアプリケーション検証を自動化
ウェブサイトの動作確認を効率化
例：
- フォームの入力検証
- UI要素の表示確認
- ページの読み込み速度測定

5. カスタマイズ可能なAIアシスタント

AIエージェントによる人間のようなブラウザ操作
自然言語指示による複雑な操作の実現
例：
- チケット予約システムの自動予約
- サイトのユーザビリティテスト

始め方

1. インストール

必要要件：Python 3.11以上
下記のライブラリを端末にインストール：

pip install browser-use playwright

2. 環境設定

.envファイルにAPIキーを設定：
※どちらか片方の設定で大丈夫です。

OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key

3. 基本的な使い方

下記のサンプルコードをPythonファイルとして保存し実行：

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Googleで東京駅の天気予報を調べてください。回答は日本語でJson形式でお答えください。",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())