Openai/6924c941-3e3c-8006-945a-8a314a773d48

This conversation was exported from ChatGPT^[1]

gpt-5-1[edit | edit source]

User: Fara-7B: An Efficient Agentic Model for Computer Use[edit | edit source]

Fara-7B: An Efficient Agentic Model for Computer Use Published November 24, 2025 https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ 概要を説明してください。

Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。[edit | edit source]

以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。（内容はアップロードされた全文を基にまとめています）Fara-7B_An_efficient_agentic_sm…

Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント（CUA）」モデル。[edit | edit source]

Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。

- 7B規模ながら、同サイズ帯でSOTA性能[edit | edit source]

大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造
オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上（データが外に出ない）を実現。

Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。

- スクリーンショットのみを入力アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。[edit | edit source]

出力は 1. reasoning（思考） 2. Playwright などのツールコール（click(x,y), type() など）
マクロ操作（web_search、visit_url）にも対応。

研究用途ではなく、実際のWebタスクに使える。[edit | edit source]

例：

フォーム入力
情報検索
旅行やレストラン予約
ショッピング
アカウント管理
GitHubや地図検索との連携

Magentic-UI と統合されており、デモ動画も提供されている。

CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。[edit | edit source]

- 多数の公開URLをカテゴリ別に収集[edit | edit source]

「映画チケットを予約」「商品比較」など現実的タスクを大量生成
これをベースに新ベンチマーク WebTailBench を構築。

- Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用[edit | edit source]

完成した“解法の軌跡（trajectory）”を記録。

- Alignment Verifier[edit | edit source]

Rubric Verifier
Multimodal Verifier → 成功率の低い軌跡は破棄。

最終的に 145,000 trajectory（100万ステップ）を学習に使用。

主な比較：[edit | edit source]

| | | | | | | --- | --- | --- | --- | --- | | | | | | | | | | | | | | | | | | | | | | | | |

→ 小型ながら大型モデルのGPT-4oエージェントを多数の領域で上回る。

コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップと効率的。

PC操作エージェントの特性上、安全設計を強化。[edit | edit source]

Sandbox環境での実行推奨
全アクションをログ化し、ユーザーが監視・中断できる
Microsoft Responsible AI Policy に基づく拒否学習
82% の拒否率（WebTailBench-Refusals）
「Critical Points（個人情報入力・送信前など）」で必ず停止して確認を求める強制ルール

- Microsoft Foundry[edit | edit source]

Hugging Face（MITライセンス）
Copilot+ PC 向けに NPU 最適化版も提供予定
VSCode AI Toolkit から導入可能
Magentic-UI 実装も公開

Fara-7Bは、[edit | edit source]

小型オープンウェイト
オンデバイス実行可能
実際にPCを自動操作できるエージェントモデル
強力な性能と安全設計を兼ね備え、CUA（Computer Use Agent）の新しい基準を提示した実験的モデル。

特に「7Bでここまでできるのか」という点が大きな意義で、今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。

gpt-5-1-thinking[edit | edit source]

User: 詳細に解説してください。[edit | edit source]

詳細に解説してください。

Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm…[edit | edit source]

では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm…

Microsoft^[2]

1. Fara-7B の位置づけ：小型 SLM × コンピュータ操作エージェント[edit | edit source]

Microsoft は 2024 年に Phi 系 SLM や Phi Silica（Copilot+ PC 向けオンデバイス SLM）を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft^[3]
Fara-7B はその延長線上で、 - “コンピュータ操作（Computer Use）専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイトという位置づけ。

ここでいう Computer Use Agent (CUA) は、「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェントのこと。Fara-7B_An_efficient_agentic_sm…

Fara-7B の狙いはざっくり言うと：

7B クラスで SOTA の Web エージェント性能
しかもオンデバイスで動かせる軽さ（レイテンシ低＆プライバシー高）
マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm…

という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。

2. どう動くのか：人間と同じ「画面ベース」の observe–think–act[edit | edit source]

2.1 入力：スクリーンショットだけを見る[edit | edit source]

Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft^[4]

入力コンテキスト： - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft^[5]

つまり「人間が画面を見て、『次どこクリックしよう？』と考える」のに近いスタイル。

2.2 出力：思考テキスト＋ツールコール[edit | edit source]

各ステップで、Fara-7B は

“thinking” メッセージ - 内部推論（次の行動をどう決めたかのテキスト）
ツールコール - Playwright の標準操作：click(x, y)、type() など - マクロ操作：web_search()、visit_url() などMicrosoft^[6]

という「観察 → 思考 → 行動（observe–think–act）」のパターンで動きます。Fara-7B_An_efficient_agentic_sm…

2.3 ベースモデルとコンテキスト[edit | edit source]

ベースは Qwen2.5-VL-7B（マルチモーダル・128k コンテキスト対応）。Microsoft^[7]
7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。

これを単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。

3. データ生成パイプライン：マルチエージェントで作る合成「操作ログ」[edit | edit source]

3.1 なぜ合成データが必要か[edit | edit source]

CUA の学習用データは、

1 タスクが数十ステップに及ぶ
各ステップごとに「どこを見てどう行動したか」をラベル付け

…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft^[8]

3.2 段階1：Task Proposal（タスク生成）[edit | edit source]

Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft^[9]

公開 Web をクロールし、URL をカテゴリ付け（ショッピング、旅行、レストランなど）
それを「シード」として、例：映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」のような、実用感のあるタスクを生成。
さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化

こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft^[10]

WebTailBench の “Tail” は、

「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」

（求人探し、不動産、価格比較、予約など）を意識している。

3.3 段階2：Task Solving（マルチエージェントで解く）[edit | edit source]

生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft^[11]

主な役割：

Orchestrator エージェント - 全体のプランを立て、次に何をするか指示
WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当
UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる（例：ログイン情報、選好など）

それぞれが、

観察（画面） → 思考メッセージ → 行動（ツールコール）

を繰り返し、1 タスク分の “trajectory（軌跡）” を生成します。Fara-7B_An_efficient_agentic_sm…

3.4 段階3：Trajectory Verification（自動審査）[edit | edit source]

生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft^[12]

Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか
Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング
Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認

基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。

3.5 学習データの規模[edit | edit source]

最終的に、

145,000 trajectory
約 100 万ステップ

からなるデータセットを構築し、これに加えて

UI 要素の位置当て（grounding）
画像キャプション
VQA（視覚質問応答）

といった補助タスク用データも入れて学習しています。Microsoft^[13]

4. 学習方法：マルチエージェント → 7B モデルへの蒸留[edit | edit source]

4.1 なぜ「1 モデル」にするのか[edit | edit source]

マルチエージェントは強力ですが、実運用は大変：

オーケストレーションロジックが複雑
レイテンシ・コストもかさむ

そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft^[14]

Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、

1 つの小型マルチモーダルモデルに圧縮した証明実験」

という位置づけ。

4.2 observe–think–act の列として線形化[edit | edit source]

マルチエージェントで得た

画面 → 思考 → 行動 → 画面 → 思考 → 行動 → …

という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft^[15]

ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft^[16] - つまり「合成データ＋SFT＋良いベースモデルだけでも、かなり強い CUA が作れる」という主張。

RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft^[17]

5. ベンチマーク評価：7B なのに frontier 系と戦えてしまう[edit | edit source]

5.1 使っているベンチ[edit | edit source]

ブログでは、以下の 4 つで評価しています。Microsoft^[18]

WebVoyager - 一般的な Web ナビゲーション・タスク
Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク
DeepShop - EC 系（ショッピング中心）
WebTailBench（新規提案） - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク　など

評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft^[19]

5.2 他モデルとの比較結果[edit | edit source]

表に出ている主な比較相手は：

GPT-4o ベースの SoM Agent（Set-of-Marks エージェント）
GLM-4.1V-9B-Thinking
OpenAI computer-use-preview
UI-TARS-1.5-7B（同じく Qwen2.5-VL-7B ベース）

結果の一部はこうです（% = 成功率）：Microsoft^[20]

| モデル | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench | | --------------------------- | ---------- | --------------- | -------- | ------------ | | SoM Agent (GPT-4o) | 65.1 | 34.6 | 16.0 | 30.0 | | GLM-4.1V-9B-Thinking | 66.8 | 33.9 | 32.0 | 22.4 | | OpenAI computer-use-preview | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 73.5 | 34.1 | 26.2 | 38.4 |

ざっくりいうと：

WebVoyager / WebTailBench では Fara-7B がトップ
DeepShop でも OpenAI の computer-use-preview を上回る
Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ

つまり

「7B クラスのオンデバイス候補が、

frontier クラスのクラウド CUA とかなり良い勝負をしている」

というパフォーマンスが示されています。

5.3 コスト vs 精度：新しいパレートフロンティア[edit | edit source]

Figure 1 では、WebVoyager について

各モデルに最大 3 回のリトライ（pass@K）を認めた上での成功率
x 軸に「トークン課金コスト」を置いたグラフ

を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft^[21]

同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると：

推論単価は同じ（openrouter の最安値で 1M トークンあたり $0.2）Microsoft^[22]
しかし - UI-TARS-1.5-7B：平均約 41 ステップ - Fara-7B：平均約 16 ステップ

でタスク完了に至る、とされています。つまり「同じエンジンだが、Fara のほうが運転がうまい」という感じ。

5.4 BrowserBase による独立評価[edit | edit source]

さらに BrowserBase 側で

WebVoyager を人間アノテータ付きで評価
Fara-7B が 62% 成功率

という結果も出しています（ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり）。Microsoft^[23]

6. 安全設計：スクリーンショット・サンドボックス・Critical Point[edit | edit source]

Fara-7B は実際にブラウザを動かすので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft^[24]

6.1 取り扱う情報とプライバシー[edit | edit source]

入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴
それ以外（アクセシビリティツリーや外部の補助データ）は読み込まないMicrosoft^[25]

→ 「人間の目に見えている範囲だけを使う」ことで、データアクセス範囲を明示的に限定している。

さらに、

すべての行動はログ化され、ユーザーが監査可能
サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft^[26]

6.2 有害タスクへの拒否学習と評価[edit | edit source]

公開の安全データ＋ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習
WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率を確認したと書かれています。Microsoft^[27]
Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft^[28]

6.3 Critical Point の強制ストップ[edit | edit source]

面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft^[29]

Critical Point とは： - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作を実行する前に、必ずユーザーの明示的な同意が要る局面。
Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm…

→ これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。

7. 提供形態とエコシステム[edit | edit source]

MIT ライセンスのオープンウェイトで、 - Microsoft Foundry（Azure AI Studio 側） - Hugging Face から入手可能。Microsoft^[30]
さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft^[31]
研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール＋検索の組み合わせなどのデモが公開されている。Microsoft^[32]

Microsoft としては、

「コンピュータ操作エージェントを試したい人が、

とりあえずオンデバイスで安全に遊べる“実験キット”」

として Fara-7B ＋ Magentic-UI ＋ AI Toolkit の組を差し出している感じです。

8. 限界と今後の方向性[edit | edit source]

ブログでは、 Fara-7B が

複雑なタスクでの精度低下
指示の取り違え
幻覚（hallucination）

といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft^[33]

そのうえで、今後の方向性として：

より強力なマルチモーダル基盤モデルへの置き換え
ライブ／サンドボックス環境での RL（強化学習）による性能向上
BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft^[34]

を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft^[35]

まとめ：Fara-7B が示しているもの[edit | edit source]

技術的なポイントを一言でまとめるなら、

「多エージェント＋合成データで学習した行動ログを、

7B クラスのマルチモーダルモデルに蒸留すると、

frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」

という実証だと言えます。

同時に、安全面では

スクリーンショット限定の情報取り扱い
サンドボックス前提
ログの完全記録
高拒否率＋ Critical Point での停止

といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。

References[edit | edit source]

↑ "Fara-7B: An Efficient Agentic Model for Computer Use". ChatGPT. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.

[1] "Fara-7B: An Efficient Agentic Model for Computer Use". ChatGPT. Retrieved 2025-11-26.

[2] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[3] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[4] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[5] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[6] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[7] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[8] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[9] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[10] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[11] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[12] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[13] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[14] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[15] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[16] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[17] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[18] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[19] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[20] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[21] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[22] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[23] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[24] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[25] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[26] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[27] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[28] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[29] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[30] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[31] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[32] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[33] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[34] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[35] "Microsoft". microsoft.com. Retrieved 2025-11-26.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]