Jump to content

Openai/6924c941-3e3c-8006-945a-8a314a773d48

From freem


This conversation was exported from ChatGPT[1]

gpt-5-1[edit | edit source]

User: Fara-7B: An Efficient Agentic Model for Computer Use[edit | edit source]

Fara-7B: An Efficient Agentic Model for Computer Use Published November 24, 2025 https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ 概要を説明してください。

Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。[edit | edit source]

以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 (内容はアップロードされた全文を基にまとめています)Fara-7B_An_efficient_agentic_sm…

Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント(CUA)」モデル。[edit | edit source]

Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。

- 7B規模ながら、同サイズ帯でSOTA性能[edit | edit source]

  • 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造
  • オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上(データが外に出ない) を実現。

Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。

- スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。[edit | edit source]

  • 出力は 1. reasoning(思考) 2. Playwright などのツールコール(click(x,y), type() など)
  • マクロ操作(web_search、visit_url)にも対応。

研究用途ではなく、実際のWebタスクに使える。[edit | edit source]

例:

  • フォーム入力
  • 情報検索
  • 旅行やレストラン予約
  • ショッピング
  • アカウント管理
  • GitHubや地図検索との連携

Magentic-UI と統合されており、デモ動画も提供されている。

CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。[edit | edit source]

- 多数の公開URLをカテゴリ別に収集[edit | edit source]
  • 「映画チケットを予約」「商品比較」など現実的タスクを大量生成
  • これをベースに新ベンチマーク WebTailBench を構築。
- Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用[edit | edit source]
  • 完成した“解法の軌跡(trajectory)”を記録。
- Alignment Verifier[edit | edit source]
  • Rubric Verifier
  • Multimodal Verifier → 成功率の低い軌跡は破棄。

最終的に 145,000 trajectory(100万ステップ)を学習に使用。

主な比較:[edit | edit source]

| | | | | | | --- | --- | --- | --- | --- | | | | | | | | | | | | | | | | | | | | | | | | |

→ 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。

コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。

PC操作エージェントの特性上、安全設計を強化。[edit | edit source]

  • Sandbox環境での実行推奨
  • 全アクションをログ化し、ユーザーが監視・中断できる
  • Microsoft Responsible AI Policy に基づく拒否学習
  • 82% の拒否率(WebTailBench-Refusals)
  • 「Critical Points(個人情報入力・送信前など)」で必ず停止して確認を求める強制ルール

- Microsoft Foundry[edit | edit source]

  • Hugging Face(MITライセンス)
  • Copilot+ PC 向けに NPU 最適化版も提供予定
  • VSCode AI Toolkit から導入可能
  • Magentic-UI 実装も公開

Fara-7Bは、[edit | edit source]

  • 小型オープンウェイト
  • オンデバイス実行可能
  • 実際にPCを自動操作できるエージェントモデル
  • 強力な性能と安全設計 を兼ね備え、CUA(Computer Use Agent)の新しい基準を提示した実験的モデル。

特に「7Bでここまでできるのか」という点が大きな意義で、 今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。

gpt-5-1-thinking[edit | edit source]

User: 詳細に解説してください。[edit | edit source]

詳細に解説してください。

Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm…[edit | edit source]

では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm…

Microsoft[2]

1. Fara-7B の位置づけ:小型 SLM × コンピュータ操作エージェント[edit | edit source]

  • Microsoft は 2024 年に Phi 系 SLM や Phi Silica(Copilot+ PC 向けオンデバイス SLM) を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft[3]
  • Fara-7B はその延長線上で、 - “コンピュータ操作(Computer Use)専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイト という位置づけ。

ここでいう Computer Use Agent (CUA) は、 「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェント のこと。Fara-7B_An_efficient_agentic_sm…

Fara-7B の狙いはざっくり言うと:

  • 7B クラスで SOTA の Web エージェント性能
  • しかも オンデバイスで動かせる軽さ(レイテンシ低&プライバシー高)
  • マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm…

という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。

2. どう動くのか:人間と同じ「画面ベース」の observe–think–act[edit | edit source]

2.1 入力:スクリーンショットだけを見る[edit | edit source]

Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft[4]

  • 入力コンテキスト: - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft[5]

つまり「人間が画面を見て、『次どこクリックしよう?』と考える」のに近いスタイル。

2.2 出力:思考テキスト+ツールコール[edit | edit source]

各ステップで、Fara-7B は

  1. “thinking” メッセージ - 内部推論(次の行動をどう決めたかのテキスト)
  2. ツールコール - Playwright の標準操作:click(x, y)、type() など - マクロ操作:web_search()、visit_url() などMicrosoft[6]

という「観察 → 思考 → 行動(observe–think–act)」のパターンで動きます。Fara-7B_An_efficient_agentic_sm…

2.3 ベースモデルとコンテキスト[edit | edit source]
  • ベースは Qwen2.5-VL-7B(マルチモーダル・128k コンテキスト対応)。Microsoft[7]
  • 7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。

これを 単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。

3. データ生成パイプライン:マルチエージェントで作る合成「操作ログ」[edit | edit source]

3.1 なぜ合成データが必要か[edit | edit source]

CUA の学習用データは、

  • 1 タスクが数十ステップに及ぶ
  • 各ステップごとに「どこを見てどう行動したか」をラベル付け

…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft[8]

3.2 段階1:Task Proposal(タスク生成)[edit | edit source]

Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft[9]

  • 公開 Web をクロールし、URL をカテゴリ付け(ショッピング、旅行、レストランなど)
  • それを「シード」として、 例:映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。
  • さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化

こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft[10]

WebTailBench の “Tail” は、
「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」
(求人探し、不動産、価格比較、予約など)を意識している。
3.3 段階2:Task Solving(マルチエージェントで解く)[edit | edit source]

生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft[11]

主な役割:

  • Orchestrator エージェント - 全体のプランを立て、次に何をするか指示
  • WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当
  • UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる(例:ログイン情報、選好など)

それぞれが、

観察(画面) → 思考メッセージ → 行動(ツールコール)

を繰り返し、1 タスク分の “trajectory(軌跡)” を生成します。Fara-7B_An_efficient_agentic_sm…

3.4 段階3:Trajectory Verification(自動審査)[edit | edit source]

生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft[12]

  1. Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか
  2. Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング
  3. Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認

基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。

3.5 学習データの規模[edit | edit source]

最終的に、

  • 145,000 trajectory
  • 約 100 万ステップ

からなるデータセットを構築し、これに加えて

  • UI 要素の位置当て(grounding)
  • 画像キャプション
  • VQA(視覚質問応答)

といった補助タスク用データも入れて学習しています。Microsoft[13]

4. 学習方法:マルチエージェント → 7B モデルへの蒸留[edit | edit source]

4.1 なぜ「1 モデル」にするのか[edit | edit source]

マルチエージェントは強力ですが、実運用は大変:

  • オーケストレーションロジックが複雑
  • レイテンシ・コストもかさむ

そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft[14]

Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、
1 つの小型マルチモーダルモデルに圧縮した証明実験」
という位置づけ。
4.2 observe–think–act の列として線形化[edit | edit source]

マルチエージェントで得た

画面 → 思考 → 行動 → 画面 → 思考 → 行動 → …

という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft[15]

  • ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft[16] - つまり「合成データ+SFT+良いベースモデルだけでも、かなり強い CUA が作れる」という主張。

RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft[17]

5. ベンチマーク評価:7B なのに frontier 系と戦えてしまう[edit | edit source]

5.1 使っているベンチ[edit | edit source]

ブログでは、以下の 4 つで評価しています。Microsoft[18]

  1. WebVoyager - 一般的な Web ナビゲーション・タスク
  2. Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク
  3. DeepShop - EC 系(ショッピング中心)
  4. WebTailBench(新規提案) - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク など

評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft[19]

5.2 他モデルとの比較結果[edit | edit source]

表に出ている主な比較相手は:

  • GPT-4o ベースの SoM Agent(Set-of-Marks エージェント)
  • GLM-4.1V-9B-Thinking
  • OpenAI computer-use-preview
  • UI-TARS-1.5-7B(同じく Qwen2.5-VL-7B ベース)

結果の一部はこうです(% = 成功率):Microsoft[20]

| モデル | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench | | --------------------------- | ---------- | --------------- | -------- | ------------ | | SoM Agent (GPT-4o) | 65.1 | 34.6 | 16.0 | 30.0 | | GLM-4.1V-9B-Thinking | 66.8 | 33.9 | 32.0 | 22.4 | | OpenAI computer-use-preview | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 73.5 | 34.1 | 26.2 | 38.4 |

ざっくりいうと:

  • WebVoyager / WebTailBench では Fara-7B がトップ
  • DeepShop でも OpenAI の computer-use-preview を上回る
  • Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ

つまり

「7B クラスのオンデバイス候補が、
frontier クラスのクラウド CUA とかなり良い勝負をしている」

というパフォーマンスが示されています。

5.3 コスト vs 精度:新しいパレートフロンティア[edit | edit source]

Figure 1 では、WebVoyager について

  • 各モデルに 最大 3 回のリトライ(pass@K) を認めた上での成功率
  • x 軸に「トークン課金コスト」を置いたグラフ

を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft[21]

同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると:

  • 推論単価は同じ(openrouter の最安値で 1M トークンあたり $0.2)Microsoft[22]
  • しかし - UI-TARS-1.5-7B:平均 約 41 ステップ - Fara-7B:平均 約 16 ステップ

でタスク完了に至る、とされています。つまり 「同じエンジンだが、Fara のほうが運転がうまい」 という感じ。

5.4 BrowserBase による独立評価[edit | edit source]

さらに BrowserBase 側で

  • WebVoyager を人間アノテータ付きで評価
  • Fara-7B が 62% 成功率

という結果も出しています(ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり)。Microsoft[23]

6. 安全設計:スクリーンショット・サンドボックス・Critical Point[edit | edit source]

Fara-7B は 実際にブラウザを動かす ので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft[24]

6.1 取り扱う情報とプライバシー[edit | edit source]
  • 入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴
  • それ以外(アクセシビリティツリーや外部の補助データ)は読み込まないMicrosoft[25]

「人間の目に見えている範囲だけを使う」ことで、データアクセス範囲を明示的に限定している。

さらに、

  • すべての行動はログ化され、ユーザーが監査可能
  • サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft[26]
6.2 有害タスクへの拒否学習と評価[edit | edit source]
  • 公開の安全データ+ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習
  • WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率 を確認したと書かれています。Microsoft[27]
  • Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft[28]
6.3 Critical Point の強制ストップ[edit | edit source]

面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft[29]

  • Critical Point とは: - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作 を実行する前に、必ずユーザーの明示的な同意が要る局面。
  • Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認 するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm…

→ これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。

7. 提供形態とエコシステム[edit | edit source]

  • MIT ライセンスのオープンウェイトで、 - Microsoft Foundry(Azure AI Studio 側) - Hugging Face から入手可能。Microsoft[30]
  • さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft[31]
  • 研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール+検索の組み合わせ などのデモが公開されている。Microsoft[32]

Microsoft としては、

「コンピュータ操作エージェントを試したい人が、
とりあえずオンデバイスで安全に遊べる“実験キット”」

として Fara-7B + Magentic-UI + AI Toolkit の組を差し出している感じです。

8. 限界と今後の方向性[edit | edit source]

ブログでは、 Fara-7B が

  • 複雑なタスクでの精度低下
  • 指示の取り違え
  • 幻覚(hallucination)

といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft[33]

そのうえで、今後の方向性として:

  1. より強力なマルチモーダル基盤モデルへの置き換え
  2. ライブ/サンドボックス環境での RL(強化学習) による性能向上
  3. BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft[34]

を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft[35]

まとめ:Fara-7B が示しているもの[edit | edit source]

技術的なポイントを一言でまとめるなら、

「多エージェント+合成データで学習した行動ログを、
7B クラスのマルチモーダルモデルに蒸留すると、
frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」

という実証だと言えます。

同時に、安全面では

  • スクリーンショット限定の情報取り扱い
  • サンドボックス前提
  • ログの完全記録
  • 高拒否率+ Critical Point での停止

といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。

References[edit | edit source]

  1. "Fara-7B: An Efficient Agentic Model for Computer Use". ChatGPT. Retrieved 2025-11-26.
  2. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  3. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  4. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  5. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  6. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  7. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  8. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  9. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  10. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  11. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  12. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  13. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  14. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  15. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  16. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  17. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  18. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  19. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  20. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  21. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  22. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  23. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  24. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  25. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  26. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  27. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  28. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  29. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  30. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  31. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  32. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  33. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  34. "Microsoft". microsoft.com. Retrieved 2025-11-26.
  35. "Microsoft". microsoft.com. Retrieved 2025-11-26.