Openai/6924c941-3e3c-8006-945a-8a314a773d48
This conversation was exported from ChatGPT[1]
gpt-5-1[edit | edit source]
User: Fara-7B: An Efficient Agentic Model for Computer Use[edit | edit source]
Fara-7B: An Efficient Agentic Model for Computer Use Published November 24, 2025 https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ 概要を説明してください。
Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。[edit | edit source]
以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 (内容はアップロードされた全文を基にまとめています)Fara-7B_An_efficient_agentic_sm…
Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント(CUA)」モデル。[edit | edit source]
Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。
- 7B規模ながら、同サイズ帯でSOTA性能[edit | edit source]
- 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造
- オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上(データが外に出ない) を実現。
Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。
- スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。[edit | edit source]
- 出力は 1. reasoning(思考) 2. Playwright などのツールコール(click(x,y), type() など)
- マクロ操作(web_search、visit_url)にも対応。
研究用途ではなく、実際のWebタスクに使える。[edit | edit source]
例:
- フォーム入力
- 情報検索
- 旅行やレストラン予約
- ショッピング
- アカウント管理
- GitHubや地図検索との連携
Magentic-UI と統合されており、デモ動画も提供されている。
CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。[edit | edit source]
- 多数の公開URLをカテゴリ別に収集[edit | edit source]
- 「映画チケットを予約」「商品比較」など現実的タスクを大量生成
- これをベースに新ベンチマーク WebTailBench を構築。
- Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用[edit | edit source]
- 完成した“解法の軌跡(trajectory)”を記録。
- Alignment Verifier[edit | edit source]
- Rubric Verifier
- Multimodal Verifier → 成功率の低い軌跡は破棄。
最終的に 145,000 trajectory(100万ステップ)を学習に使用。
主な比較:[edit | edit source]
| | | | | | | --- | --- | --- | --- | --- | | | | | | | | | | | | | | | | | | | | | | | | |
→ 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。
コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。
PC操作エージェントの特性上、安全設計を強化。[edit | edit source]
- Sandbox環境での実行推奨
- 全アクションをログ化し、ユーザーが監視・中断できる
- Microsoft Responsible AI Policy に基づく拒否学習
- 82% の拒否率(WebTailBench-Refusals)
- 「Critical Points(個人情報入力・送信前など)」で必ず停止して確認を求める強制ルール
- Microsoft Foundry[edit | edit source]
- Hugging Face(MITライセンス)
- Copilot+ PC 向けに NPU 最適化版も提供予定
- VSCode AI Toolkit から導入可能
- Magentic-UI 実装も公開
Fara-7Bは、[edit | edit source]
- 小型オープンウェイト
- オンデバイス実行可能
- 実際にPCを自動操作できるエージェントモデル
- 強力な性能と安全設計 を兼ね備え、CUA(Computer Use Agent)の新しい基準を提示した実験的モデル。
特に「7Bでここまでできるのか」という点が大きな意義で、 今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。
gpt-5-1-thinking[edit | edit source]
User: 詳細に解説してください。[edit | edit source]
詳細に解説してください。
Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm…[edit | edit source]
では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm…
Microsoft[2]
1. Fara-7B の位置づけ:小型 SLM × コンピュータ操作エージェント[edit | edit source]
- Microsoft は 2024 年に Phi 系 SLM や Phi Silica(Copilot+ PC 向けオンデバイス SLM) を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft[3]
- Fara-7B はその延長線上で、 - “コンピュータ操作(Computer Use)専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイト という位置づけ。
ここでいう Computer Use Agent (CUA) は、 「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェント のこと。Fara-7B_An_efficient_agentic_sm…
Fara-7B の狙いはざっくり言うと:
- 7B クラスで SOTA の Web エージェント性能
- しかも オンデバイスで動かせる軽さ(レイテンシ低&プライバシー高)
- マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm…
という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。
2. どう動くのか:人間と同じ「画面ベース」の observe–think–act[edit | edit source]
2.1 入力:スクリーンショットだけを見る[edit | edit source]
Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft[4]
- 入力コンテキスト: - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft[5]
つまり「人間が画面を見て、『次どこクリックしよう?』と考える」のに近いスタイル。
2.2 出力:思考テキスト+ツールコール[edit | edit source]
各ステップで、Fara-7B は
- “thinking” メッセージ - 内部推論(次の行動をどう決めたかのテキスト)
- ツールコール - Playwright の標準操作:click(x, y)、type() など - マクロ操作:web_search()、visit_url() などMicrosoft[6]
という「観察 → 思考 → 行動(observe–think–act)」のパターンで動きます。Fara-7B_An_efficient_agentic_sm…
2.3 ベースモデルとコンテキスト[edit | edit source]
- ベースは Qwen2.5-VL-7B(マルチモーダル・128k コンテキスト対応)。Microsoft[7]
- 7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。
これを 単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。
3. データ生成パイプライン:マルチエージェントで作る合成「操作ログ」[edit | edit source]
3.1 なぜ合成データが必要か[edit | edit source]
CUA の学習用データは、
- 1 タスクが数十ステップに及ぶ
- 各ステップごとに「どこを見てどう行動したか」をラベル付け
…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft[8]
3.2 段階1:Task Proposal(タスク生成)[edit | edit source]
Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft[9]
- 公開 Web をクロールし、URL をカテゴリ付け(ショッピング、旅行、レストランなど)
- それを「シード」として、 例:映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。
- さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化
こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft[10]
- WebTailBench の “Tail” は、
- 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」
- (求人探し、不動産、価格比較、予約など)を意識している。
3.3 段階2:Task Solving(マルチエージェントで解く)[edit | edit source]
生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft[11]
主な役割:
- Orchestrator エージェント - 全体のプランを立て、次に何をするか指示
- WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当
- UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる(例:ログイン情報、選好など)
それぞれが、
- 観察(画面) → 思考メッセージ → 行動(ツールコール)
を繰り返し、1 タスク分の “trajectory(軌跡)” を生成します。Fara-7B_An_efficient_agentic_sm…
3.4 段階3:Trajectory Verification(自動審査)[edit | edit source]
生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft[12]
- Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか
- Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング
- Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認
基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。
3.5 学習データの規模[edit | edit source]
最終的に、
- 145,000 trajectory
- 約 100 万ステップ
からなるデータセットを構築し、これに加えて
- UI 要素の位置当て(grounding)
- 画像キャプション
- VQA(視覚質問応答)
といった補助タスク用データも入れて学習しています。Microsoft[13]
4. 学習方法:マルチエージェント → 7B モデルへの蒸留[edit | edit source]
4.1 なぜ「1 モデル」にするのか[edit | edit source]
マルチエージェントは強力ですが、実運用は大変:
- オーケストレーションロジックが複雑
- レイテンシ・コストもかさむ
そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft[14]
- Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、
- 1 つの小型マルチモーダルモデルに圧縮した証明実験」
- という位置づけ。
4.2 observe–think–act の列として線形化[edit | edit source]
マルチエージェントで得た
- 画面 → 思考 → 行動 → 画面 → 思考 → 行動 → …
という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft[15]
- ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft[16] - つまり「合成データ+SFT+良いベースモデルだけでも、かなり強い CUA が作れる」という主張。
RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft[17]
5. ベンチマーク評価:7B なのに frontier 系と戦えてしまう[edit | edit source]
5.1 使っているベンチ[edit | edit source]
ブログでは、以下の 4 つで評価しています。Microsoft[18]
- WebVoyager - 一般的な Web ナビゲーション・タスク
- Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク
- DeepShop - EC 系(ショッピング中心)
- WebTailBench(新規提案) - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク など
評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft[19]
5.2 他モデルとの比較結果[edit | edit source]
表に出ている主な比較相手は:
- GPT-4o ベースの SoM Agent(Set-of-Marks エージェント)
- GLM-4.1V-9B-Thinking
- OpenAI computer-use-preview
- UI-TARS-1.5-7B(同じく Qwen2.5-VL-7B ベース)
結果の一部はこうです(% = 成功率):Microsoft[20]
| モデル | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench | | --------------------------- | ---------- | --------------- | -------- | ------------ | | SoM Agent (GPT-4o) | 65.1 | 34.6 | 16.0 | 30.0 | | GLM-4.1V-9B-Thinking | 66.8 | 33.9 | 32.0 | 22.4 | | OpenAI computer-use-preview | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 73.5 | 34.1 | 26.2 | 38.4 |
ざっくりいうと:
- WebVoyager / WebTailBench では Fara-7B がトップ
- DeepShop でも OpenAI の computer-use-preview を上回る
- Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ
つまり
- 「7B クラスのオンデバイス候補が、
- frontier クラスのクラウド CUA とかなり良い勝負をしている」
というパフォーマンスが示されています。
5.3 コスト vs 精度:新しいパレートフロンティア[edit | edit source]
Figure 1 では、WebVoyager について
- 各モデルに 最大 3 回のリトライ(pass@K) を認めた上での成功率
- x 軸に「トークン課金コスト」を置いたグラフ
を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft[21]
同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると:
- 推論単価は同じ(openrouter の最安値で 1M トークンあたり $0.2)Microsoft[22]
- しかし - UI-TARS-1.5-7B:平均 約 41 ステップ - Fara-7B:平均 約 16 ステップ
でタスク完了に至る、とされています。つまり 「同じエンジンだが、Fara のほうが運転がうまい」 という感じ。
5.4 BrowserBase による独立評価[edit | edit source]
さらに BrowserBase 側で
- WebVoyager を人間アノテータ付きで評価
- Fara-7B が 62% 成功率
という結果も出しています(ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり)。Microsoft[23]
6. 安全設計:スクリーンショット・サンドボックス・Critical Point[edit | edit source]
Fara-7B は 実際にブラウザを動かす ので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft[24]
6.1 取り扱う情報とプライバシー[edit | edit source]
- 入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴
- それ以外(アクセシビリティツリーや外部の補助データ)は読み込まないMicrosoft[25]
→ 「人間の目に見えている範囲だけを使う」ことで、データアクセス範囲を明示的に限定している。
さらに、
- すべての行動はログ化され、ユーザーが監査可能
- サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft[26]
6.2 有害タスクへの拒否学習と評価[edit | edit source]
- 公開の安全データ+ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習
- WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率 を確認したと書かれています。Microsoft[27]
- Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft[28]
6.3 Critical Point の強制ストップ[edit | edit source]
面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft[29]
- Critical Point とは: - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作 を実行する前に、必ずユーザーの明示的な同意が要る局面。
- Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認 するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm…
→ これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。
7. 提供形態とエコシステム[edit | edit source]
- MIT ライセンスのオープンウェイトで、 - Microsoft Foundry(Azure AI Studio 側) - Hugging Face から入手可能。Microsoft[30]
- さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft[31]
- 研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール+検索の組み合わせ などのデモが公開されている。Microsoft[32]
Microsoft としては、
- 「コンピュータ操作エージェントを試したい人が、
- とりあえずオンデバイスで安全に遊べる“実験キット”」
として Fara-7B + Magentic-UI + AI Toolkit の組を差し出している感じです。
8. 限界と今後の方向性[edit | edit source]
ブログでは、 Fara-7B が
- 複雑なタスクでの精度低下
- 指示の取り違え
- 幻覚(hallucination)
といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft[33]
そのうえで、今後の方向性として:
- より強力なマルチモーダル基盤モデルへの置き換え
- ライブ/サンドボックス環境での RL(強化学習) による性能向上
- BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft[34]
を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft[35]
まとめ:Fara-7B が示しているもの[edit | edit source]
技術的なポイントを一言でまとめるなら、
- 「多エージェント+合成データで学習した行動ログを、
- 7B クラスのマルチモーダルモデルに蒸留すると、
- frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」
という実証だと言えます。
同時に、安全面では
- スクリーンショット限定の情報取り扱い
- サンドボックス前提
- ログの完全記録
- 高拒否率+ Critical Point での停止
といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。
References[edit | edit source]
- ↑ "Fara-7B: An Efficient Agentic Model for Computer Use". ChatGPT. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.
- ↑ "Microsoft". microsoft.com. Retrieved 2025-11-26.