Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/6924c941-3e3c-8006-945a-8a314a773d48
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
== gpt-5-1 == === User: Fara-7B: An Efficient Agentic Model for Computer Use === Fara-7B: An Efficient Agentic Model for Computer Use Published November 24, 2025 https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/ 概要を説明してください。 === Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 === 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 (内容はアップロードされた全文を基にまとめています)Fara-7B_An_efficient_agentic_sm… === Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント(CUA)」モデル。 === Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。 ==== - 7B規模ながら、同サイズ帯でSOTA性能 ==== * 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造 * オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上(データが外に出ない) を実現。 Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。 ==== - スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。 ==== * 出力は 1. reasoning(思考) 2. Playwright などのツールコール(click(x,y), type() など) * マクロ操作(web_search、visit_url)にも対応。 ==== 研究用途ではなく、実際のWebタスクに使える。 ==== 例: * フォーム入力 * 情報検索 * 旅行やレストラン予約 * ショッピング * アカウント管理 * GitHubや地図検索との連携 Magentic-UI と統合されており、デモ動画も提供されている。 ==== CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。 ==== ===== - 多数の公開URLをカテゴリ別に収集 ===== * 「映画チケットを予約」「商品比較」など現実的タスクを大量生成 * これをベースに新ベンチマーク WebTailBench を構築。 ===== - Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用 ===== * 完成した“解法の軌跡(trajectory)”を記録。 ===== - Alignment Verifier ===== * Rubric Verifier * Multimodal Verifier → 成功率の低い軌跡は破棄。 最終的に 145,000 trajectory(100万ステップ)を学習に使用。 ==== 主な比較: ==== | | | | | | | --- | --- | --- | --- | --- | | | | | | | | | | | | | | | | | | | | | | | | | → 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。 コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。 ==== PC操作エージェントの特性上、安全設計を強化。 ==== * Sandbox環境での実行推奨 * 全アクションをログ化し、ユーザーが監視・中断できる * Microsoft Responsible AI Policy に基づく拒否学習 * 82% の拒否率(WebTailBench-Refusals) * 「Critical Points(個人情報入力・送信前など)」で必ず停止して確認を求める強制ルール ==== - Microsoft Foundry ==== * Hugging Face(MITライセンス) * Copilot+ PC 向けに NPU 最適化版も提供予定 * VSCode AI Toolkit から導入可能 * Magentic-UI 実装も公開 === Fara-7Bは、 === * 小型オープンウェイト * オンデバイス実行可能 * 実際にPCを自動操作できるエージェントモデル * 強力な性能と安全設計 を兼ね備え、CUA(Computer Use Agent)の新しい基準を提示した実験的モデル。 特に「7Bでここまでできるのか」という点が大きな意義で、 今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)