Editing Openai/6924c941-3e3c-8006-945a-8a314a773d48


{{DISPLAYTITLE:Fara-7B: An Efficient Agentic Model for Computer Use}}

''This conversation was exported from ChatGPT''<ref>{{cite web|title=Fara-7B: An Efficient Agentic Model for Computer Use|url=https://chatgpt.com/share/6924c941-3e3c-8006-945a-8a314a773d48|publisher=ChatGPT|access-date=2025-11-26}}</ref>

== gpt-5-1 ==
=== User: Fara-7B: An Efficient Agentic Model for Computer Use ===
Fara-7B: An Efficient Agentic Model for Computer Use
Published November 24, 2025
https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
概要を説明してください。

=== Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 ===
以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。
（内容はアップロードされた全文を基にまとめています）Fara-7B_An_efficient_agentic_sm…

=== Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント（CUA）」モデル。 ===
Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。

==== - 7B規模ながら、同サイズ帯でSOTA性能 ====
* 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造
* オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上（データが外に出ない） を実現。

Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。

==== - スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。 ====
* 出力は 1. reasoning（思考） 2. Playwright などのツールコール（click(x,y), type() など）
* マクロ操作（web_search、visit_url）にも対応。

==== 研究用途ではなく、実際のWebタスクに使える。 ====
例：
* フォーム入力
* 情報検索
* 旅行やレストラン予約
* ショッピング
* アカウント管理
* GitHubや地図検索との連携

Magentic-UI と統合されており、デモ動画も提供されている。

==== CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。 ====

===== - 多数の公開URLをカテゴリ別に収集 =====
* 「映画チケットを予約」「商品比較」など現実的タスクを大量生成
* これをベースに新ベンチマーク WebTailBench を構築。

===== - Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用 =====
* 完成した“解法の軌跡（trajectory）”を記録。

===== - Alignment Verifier =====
* Rubric Verifier
* Multimodal Verifier → 成功率の低い軌跡は破棄。

最終的に 145,000 trajectory（100万ステップ）を学習に使用。

==== 主な比較： ====

|     |     |     |     |     |
| --- | --- | --- | --- | --- |
|     |     |     |     |     |
|     |     |     |     |     |
|     |     |     |     |     |
|     |     |     |     |     |

→ 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。

コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。

==== PC操作エージェントの特性上、安全設計を強化。 ====
* Sandbox環境での実行推奨
* 全アクションをログ化し、ユーザーが監視・中断できる
* Microsoft Responsible AI Policy に基づく拒否学習
* 82% の拒否率（WebTailBench-Refusals）
* 「Critical Points（個人情報入力・送信前など）」で必ず停止して確認を求める強制ルール

==== - Microsoft Foundry ====
* Hugging Face（MITライセンス）
* Copilot+ PC 向けに NPU 最適化版も提供予定
* VSCode AI Toolkit から導入可能
* Magentic-UI 実装も公開

=== Fara-7Bは、 ===
* 小型オープンウェイト
* オンデバイス実行可能
* 実際にPCを自動操作できるエージェントモデル
* 強力な性能と安全設計 を兼ね備え、CUA（Computer Use Agent）の新しい基準を提示した実験的モデル。

特に「7Bでここまでできるのか」という点が大きな意義で、
今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。

== gpt-5-1-thinking ==
=== User: 詳細に解説してください。 ===
詳細に解説してください。

=== Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm… ===
では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm…

 Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

==== 1. Fara-7B の位置づけ：小型 SLM × コンピュータ操作エージェント ====
* Microsoft は 2024 年に Phi 系 SLM や Phi Silica（Copilot+ PC 向けオンデバイス SLM） を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* Fara-7B はその延長線上で、 - “コンピュータ操作（Computer Use）専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイト という位置づけ。

ここでいう Computer Use Agent (CUA) は、
「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェント のこと。Fara-7B_An_efficient_agentic_sm…

Fara-7B の狙いはざっくり言うと：
* 7B クラスで SOTA の Web エージェント性能
* しかも オンデバイスで動かせる軽さ（レイテンシ低＆プライバシー高）
* マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm…

という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。

==== 2. どう動くのか：人間と同じ「画面ベース」の observe–think–act ====

===== 2.1 入力：スクリーンショットだけを見る =====

Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* 入力コンテキスト： - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

つまり「人間が画面を見て、『次どこクリックしよう？』と考える」のに近いスタイル。

===== 2.2 出力：思考テキスト＋ツールコール =====

各ステップで、Fara-7B は
# “thinking” メッセージ - 内部推論（次の行動をどう決めたかのテキスト）
# ツールコール - Playwright の標準操作：click(x, y)、type() など - マクロ操作：web_search()、visit_url() などMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

という「観察 → 思考 → 行動（observe–think–act）」のパターンで動きます。Fara-7B_An_efficient_agentic_sm…

===== 2.3 ベースモデルとコンテキスト =====
* ベースは Qwen2.5-VL-7B（マルチモーダル・128k コンテキスト対応）。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* 7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。

これを 単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。

==== 3. データ生成パイプライン：マルチエージェントで作る合成「操作ログ」 ====

===== 3.1 なぜ合成データが必要か =====

CUA の学習用データは、
* 1 タスクが数十ステップに及ぶ
* 各ステップごとに「どこを見てどう行動したか」をラベル付け

…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 3.2 段階1：Task Proposal（タスク生成） =====

Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* 公開 Web をクロールし、URL をカテゴリ付け（ショッピング、旅行、レストランなど）
* それを「シード」として、 例：映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。
* さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化

こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

: WebTailBench の “Tail” は、
: 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」
: （求人探し、不動産、価格比較、予約など）を意識している。

===== 3.3 段階2：Task Solving（マルチエージェントで解く） =====

生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

主な役割：
* Orchestrator エージェント - 全体のプランを立て、次に何をするか指示
* WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当
* UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる（例：ログイン情報、選好など）

それぞれが、

: 観察（画面） → 思考メッセージ → 行動（ツールコール）

を繰り返し、1 タスク分の “trajectory（軌跡）” を生成します。Fara-7B_An_efficient_agentic_sm…

===== 3.4 段階3：Trajectory Verification（自動審査） =====

生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
# Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか
# Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング
# Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認

基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。

===== 3.5 学習データの規模 =====

最終的に、
* 145,000 trajectory
* 約 100 万ステップ

からなるデータセットを構築し、これに加えて
* UI 要素の位置当て（grounding）
* 画像キャプション
* VQA（視覚質問応答）

といった補助タスク用データも入れて学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

==== 4. 学習方法：マルチエージェント → 7B モデルへの蒸留 ====

===== 4.1 なぜ「1 モデル」にするのか =====

マルチエージェントは強力ですが、実運用は大変：
* オーケストレーションロジックが複雑
* レイテンシ・コストもかさむ

そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

: Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、
: 1 つの小型マルチモーダルモデルに圧縮した証明実験」
: という位置づけ。

===== 4.2 observe–think–act の列として線形化 =====

マルチエージェントで得た

: 画面 → 思考 → 行動 → 画面 → 思考 → 行動 → …

という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> - つまり「合成データ＋SFT＋良いベースモデルだけでも、かなり強い CUA が作れる」という主張。

RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

==== 5. ベンチマーク評価：7B なのに frontier 系と戦えてしまう ====

===== 5.1 使っているベンチ =====

ブログでは、以下の 4 つで評価しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
# WebVoyager - 一般的な Web ナビゲーション・タスク
# Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク
# DeepShop - EC 系（ショッピング中心）
# WebTailBench（新規提案） - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク　など

評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 5.2 他モデルとの比較結果 =====

表に出ている主な比較相手は：
* GPT-4o ベースの SoM Agent（Set-of-Marks エージェント）
* GLM-4.1V-9B-Thinking
* OpenAI computer-use-preview
* UI-TARS-1.5-7B（同じく Qwen2.5-VL-7B ベース）

結果の一部はこうです（% = 成功率）：Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

| モデル                         | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench |
| --------------------------- | ---------- | --------------- | -------- | ------------ |
| SoM Agent (GPT-4o)          | 65.1       | 34.6            | 16.0     | 30.0         |
| GLM-4.1V-9B-Thinking        | 66.8       | 33.9            | 32.0     | 22.4         |
| OpenAI computer-use-preview | 70.9       | 42.9            | 24.7     | 25.7         |
| UI-TARS-1.5-7B              | 66.4       | 31.3            | 11.6     | 19.5         |
| Fara-7B                     | 73.5       | 34.1            | 26.2     | 38.4         |

ざっくりいうと：
* WebVoyager / WebTailBench では Fara-7B がトップ
* DeepShop でも OpenAI の computer-use-preview を上回る
* Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ

つまり

: 「7B クラスのオンデバイス候補が、
: frontier クラスのクラウド CUA とかなり良い勝負をしている」

というパフォーマンスが示されています。

===== 5.3 コスト vs 精度：新しいパレートフロンティア =====

Figure 1 では、WebVoyager について
* 各モデルに 最大 3 回のリトライ（pass@K） を認めた上での成功率
* x 軸に「トークン課金コスト」を置いたグラフ

を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると：
* 推論単価は同じ（openrouter の最安値で 1M トークンあたり $0.2）Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* しかし - UI-TARS-1.5-7B：平均 約 41 ステップ - Fara-7B：平均 約 16 ステップ

でタスク完了に至る、とされています。つまり 「同じエンジンだが、Fara のほうが運転がうまい」 という感じ。

===== 5.4 BrowserBase による独立評価 =====

さらに BrowserBase 側で
* WebVoyager を人間アノテータ付きで評価
* Fara-7B が 62% 成功率

という結果も出しています（ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり）。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

==== 6. 安全設計：スクリーンショット・サンドボックス・Critical Point ====

Fara-7B は 実際にブラウザを動かす ので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 6.1 取り扱う情報とプライバシー =====
* 入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴
* それ以外（アクセシビリティツリーや外部の補助データ）は読み込まないMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

→ '''「人間の目に見えている範囲だけを使う」'''ことで、データアクセス範囲を明示的に限定している。

さらに、
* すべての行動はログ化され、ユーザーが監査可能
* サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 6.2 有害タスクへの拒否学習と評価 =====
* 公開の安全データ＋ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習
* WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率 を確認したと書かれています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 6.3 Critical Point の強制ストップ =====

面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* Critical Point とは： - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作 を実行する前に、必ずユーザーの明示的な同意が要る局面。
* Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認 するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm…

→ これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。

==== 7. 提供形態とエコシステム ====
* MIT ライセンスのオープンウェイトで、 - Microsoft Foundry（Azure AI Studio 側） - Hugging Face から入手可能。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* 研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール＋検索の組み合わせ などのデモが公開されている。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

Microsoft としては、

: 「コンピュータ操作エージェントを試したい人が、
: とりあえずオンデバイスで安全に遊べる“実験キット”」

として Fara-7B ＋ Magentic-UI ＋ AI Toolkit の組を差し出している感じです。

==== 8. 限界と今後の方向性 ====

ブログでは、 Fara-7B が
* 複雑なタスクでの精度低下
* 指示の取り違え
* 幻覚（hallucination）

といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

そのうえで、今後の方向性として：
# より強力なマルチモーダル基盤モデルへの置き換え
# ライブ／サンドボックス環境での RL（強化学習） による性能向上
# BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

==== まとめ：Fara-7B が示しているもの ====

技術的なポイントを一言でまとめるなら、

: 「多エージェント＋合成データで学習した行動ログを、
: 7B クラスのマルチモーダルモデルに蒸留すると、
: frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」

という実証だと言えます。

同時に、安全面では
* スクリーンショット限定の情報取り扱い
* サンドボックス前提
* ログの完全記録
* 高拒否率＋ Critical Point での停止

といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。

== References ==
<references />


[[Category:ChatGPT Shares]]
[[Category:openai]]