Home
Random
Log in
Settings
About freem
Disclaimers
freem
Search
Editing
Openai/6924c941-3e3c-8006-945a-8a314a773d48
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
{{DISPLAYTITLE:Fara-7B: An Efficient Agentic Model for Computer Use}} ''This conversation was exported from ChatGPT''<ref>{{cite web|title=Fara-7B: An Efficient Agentic Model for Computer Use|url=https://chatgpt.com/share/6924c941-3e3c-8006-945a-8a314a773d48|publisher=ChatGPT|access-date=2025-11-26}}</ref> == gpt-5-1 == === User: Fara-7B: An Efficient Agentic Model for Computer Use === Fara-7B: An Efficient Agentic Model for Computer Use Published November 24, 2025 https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ 概要を説明してください。 === Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 === 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 (内容はアップロードされた全文を基にまとめています)Fara-7B_An_efficient_agentic_sm… === Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント(CUA)」モデル。 === Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。 ==== - 7B規模ながら、同サイズ帯でSOTA性能 ==== * 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造 * オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上(データが外に出ない) を実現。 Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。 ==== - スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。 ==== * 出力は 1. reasoning(思考) 2. Playwright などのツールコール(click(x,y), type() など) * マクロ操作(web_search、visit_url)にも対応。 ==== 研究用途ではなく、実際のWebタスクに使える。 ==== 例: * フォーム入力 * 情報検索 * 旅行やレストラン予約 * ショッピング * アカウント管理 * GitHubや地図検索との連携 Magentic-UI と統合されており、デモ動画も提供されている。 ==== CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。 ==== ===== - 多数の公開URLをカテゴリ別に収集 ===== * 「映画チケットを予約」「商品比較」など現実的タスクを大量生成 * これをベースに新ベンチマーク WebTailBench を構築。 ===== - Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用 ===== * 完成した“解法の軌跡(trajectory)”を記録。 ===== - Alignment Verifier ===== * Rubric Verifier * Multimodal Verifier → 成功率の低い軌跡は破棄。 最終的に 145,000 trajectory(100万ステップ)を学習に使用。 ==== 主な比較: ==== | | | | | | | --- | --- | --- | --- | --- | | | | | | | | | | | | | | | | | | | | | | | | | → 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。 コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。 ==== PC操作エージェントの特性上、安全設計を強化。 ==== * Sandbox環境での実行推奨 * 全アクションをログ化し、ユーザーが監視・中断できる * Microsoft Responsible AI Policy に基づく拒否学習 * 82% の拒否率(WebTailBench-Refusals) * 「Critical Points(個人情報入力・送信前など)」で必ず停止して確認を求める強制ルール ==== - Microsoft Foundry ==== * Hugging Face(MITライセンス) * Copilot+ PC 向けに NPU 最適化版も提供予定 * VSCode AI Toolkit から導入可能 * Magentic-UI 実装も公開 === Fara-7Bは、 === * 小型オープンウェイト * オンデバイス実行可能 * 実際にPCを自動操作できるエージェントモデル * 強力な性能と安全設計 を兼ね備え、CUA(Computer Use Agent)の新しい基準を提示した実験的モデル。 特に「7Bでここまでできるのか」という点が大きな意義で、 今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。 == gpt-5-1-thinking == === User: 詳細に解説してください。 === 詳細に解説してください。 === Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm… === では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm… Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ==== 1. Fara-7B の位置づけ:小型 SLM × コンピュータ操作エージェント ==== * Microsoft は 2024 年に Phi 系 SLM や Phi Silica(Copilot+ PC 向けオンデバイス SLM) を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * Fara-7B はその延長線上で、 - “コンピュータ操作(Computer Use)専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイト という位置づけ。 ここでいう Computer Use Agent (CUA) は、 「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェント のこと。Fara-7B_An_efficient_agentic_sm… Fara-7B の狙いはざっくり言うと: * 7B クラスで SOTA の Web エージェント性能 * しかも オンデバイスで動かせる軽さ(レイテンシ低&プライバシー高) * マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm… という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。 ==== 2. どう動くのか:人間と同じ「画面ベース」の observe–think–act ==== ===== 2.1 入力:スクリーンショットだけを見る ===== Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * 入力コンテキスト: - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> つまり「人間が画面を見て、『次どこクリックしよう?』と考える」のに近いスタイル。 ===== 2.2 出力:思考テキスト+ツールコール ===== 各ステップで、Fara-7B は # “thinking” メッセージ - 内部推論(次の行動をどう決めたかのテキスト) # ツールコール - Playwright の標準操作:click(x, y)、type() など - マクロ操作:web_search()、visit_url() などMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> という「観察 → 思考 → 行動(observe–think–act)」のパターンで動きます。Fara-7B_An_efficient_agentic_sm… ===== 2.3 ベースモデルとコンテキスト ===== * ベースは Qwen2.5-VL-7B(マルチモーダル・128k コンテキスト対応)。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * 7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。 これを 単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。 ==== 3. データ生成パイプライン:マルチエージェントで作る合成「操作ログ」 ==== ===== 3.1 なぜ合成データが必要か ===== CUA の学習用データは、 * 1 タスクが数十ステップに及ぶ * 各ステップごとに「どこを見てどう行動したか」をラベル付け …という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 3.2 段階1:Task Proposal(タスク生成) ===== Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * 公開 Web をクロールし、URL をカテゴリ付け(ショッピング、旅行、レストランなど) * それを「シード」として、 例:映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。 * さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化 こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> : WebTailBench の “Tail” は、 : 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」 : (求人探し、不動産、価格比較、予約など)を意識している。 ===== 3.3 段階2:Task Solving(マルチエージェントで解く) ===== 生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> 主な役割: * Orchestrator エージェント - 全体のプランを立て、次に何をするか指示 * WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当 * UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる(例:ログイン情報、選好など) それぞれが、 : 観察(画面) → 思考メッセージ → 行動(ツールコール) を繰り返し、1 タスク分の “trajectory(軌跡)” を生成します。Fara-7B_An_efficient_agentic_sm… ===== 3.4 段階3:Trajectory Verification(自動審査) ===== 生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> # Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか # Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング # Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認 基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。 ===== 3.5 学習データの規模 ===== 最終的に、 * 145,000 trajectory * 約 100 万ステップ からなるデータセットを構築し、これに加えて * UI 要素の位置当て(grounding) * 画像キャプション * VQA(視覚質問応答) といった補助タスク用データも入れて学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ==== 4. 学習方法:マルチエージェント → 7B モデルへの蒸留 ==== ===== 4.1 なぜ「1 モデル」にするのか ===== マルチエージェントは強力ですが、実運用は大変: * オーケストレーションロジックが複雑 * レイテンシ・コストもかさむ そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> : Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、 : 1 つの小型マルチモーダルモデルに圧縮した証明実験」 : という位置づけ。 ===== 4.2 observe–think–act の列として線形化 ===== マルチエージェントで得た : 画面 → 思考 → 行動 → 画面 → 思考 → 行動 → … という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> - つまり「合成データ+SFT+良いベースモデルだけでも、かなり強い CUA が作れる」という主張。 RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ==== 5. ベンチマーク評価:7B なのに frontier 系と戦えてしまう ==== ===== 5.1 使っているベンチ ===== ブログでは、以下の 4 つで評価しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> # WebVoyager - 一般的な Web ナビゲーション・タスク # Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク # DeepShop - EC 系(ショッピング中心) # WebTailBench(新規提案) - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク など 評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 5.2 他モデルとの比較結果 ===== 表に出ている主な比較相手は: * GPT-4o ベースの SoM Agent(Set-of-Marks エージェント) * GLM-4.1V-9B-Thinking * OpenAI computer-use-preview * UI-TARS-1.5-7B(同じく Qwen2.5-VL-7B ベース) 結果の一部はこうです(% = 成功率):Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> | モデル | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench | | --------------------------- | ---------- | --------------- | -------- | ------------ | | SoM Agent (GPT-4o) | 65.1 | 34.6 | 16.0 | 30.0 | | GLM-4.1V-9B-Thinking | 66.8 | 33.9 | 32.0 | 22.4 | | OpenAI computer-use-preview | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 73.5 | 34.1 | 26.2 | 38.4 | ざっくりいうと: * WebVoyager / WebTailBench では Fara-7B がトップ * DeepShop でも OpenAI の computer-use-preview を上回る * Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ つまり : 「7B クラスのオンデバイス候補が、 : frontier クラスのクラウド CUA とかなり良い勝負をしている」 というパフォーマンスが示されています。 ===== 5.3 コスト vs 精度:新しいパレートフロンティア ===== Figure 1 では、WebVoyager について * 各モデルに 最大 3 回のリトライ(pass@K) を認めた上での成功率 * x 軸に「トークン課金コスト」を置いたグラフ を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> 同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると: * 推論単価は同じ(openrouter の最安値で 1M トークンあたり $0.2)Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * しかし - UI-TARS-1.5-7B:平均 約 41 ステップ - Fara-7B:平均 約 16 ステップ でタスク完了に至る、とされています。つまり 「同じエンジンだが、Fara のほうが運転がうまい」 という感じ。 ===== 5.4 BrowserBase による独立評価 ===== さらに BrowserBase 側で * WebVoyager を人間アノテータ付きで評価 * Fara-7B が 62% 成功率 という結果も出しています(ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり)。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ==== 6. 安全設計:スクリーンショット・サンドボックス・Critical Point ==== Fara-7B は 実際にブラウザを動かす ので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 6.1 取り扱う情報とプライバシー ===== * 入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴 * それ以外(アクセシビリティツリーや外部の補助データ)は読み込まないMicrosoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> → '''「人間の目に見えている範囲だけを使う」'''ことで、データアクセス範囲を明示的に限定している。 さらに、 * すべての行動はログ化され、ユーザーが監査可能 * サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 6.2 有害タスクへの拒否学習と評価 ===== * 公開の安全データ+ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習 * WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率 を確認したと書かれています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 6.3 Critical Point の強制ストップ ===== 面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * Critical Point とは: - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作 を実行する前に、必ずユーザーの明示的な同意が要る局面。 * Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認 するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm… → これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。 ==== 7. 提供形態とエコシステム ==== * MIT ライセンスのオープンウェイトで、 - Microsoft Foundry(Azure AI Studio 側) - Hugging Face から入手可能。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * 研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール+検索の組み合わせ などのデモが公開されている。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> Microsoft としては、 : 「コンピュータ操作エージェントを試したい人が、 : とりあえずオンデバイスで安全に遊べる“実験キット”」 として Fara-7B + Magentic-UI + AI Toolkit の組を差し出している感じです。 ==== 8. 限界と今後の方向性 ==== ブログでは、 Fara-7B が * 複雑なタスクでの精度低下 * 指示の取り違え * 幻覚(hallucination) といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> そのうえで、今後の方向性として: # より強力なマルチモーダル基盤モデルへの置き換え # ライブ/サンドボックス環境での RL(強化学習) による性能向上 # BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ==== まとめ:Fara-7B が示しているもの ==== 技術的なポイントを一言でまとめるなら、 : 「多エージェント+合成データで学習した行動ログを、 : 7B クラスのマルチモーダルモデルに蒸留すると、 : frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」 という実証だと言えます。 同時に、安全面では * スクリーンショット限定の情報取り扱い * サンドボックス前提 * ログの完全記録 * 高拒否率+ Critical Point での停止 といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。 == References == <references /> [[Category:ChatGPT Shares]] [[Category:openai]]
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)
Templates used on this page:
Template:Cite web
(
edit
)
Module:Citation/CS1
(
edit
)
Module:Citation/CS1/COinS
(
edit
)
Module:Citation/CS1/Configuration
(
edit
)
Module:Citation/CS1/Date validation
(
edit
)
Module:Citation/CS1/Identifiers
(
edit
)
Module:Citation/CS1/Utilities
(
edit
)
Module:Citation/CS1/Whitelist
(
edit
)
Module:Citation/CS1/styles.css
(
edit
)