エグゼクティブサマリー
Factory AIの「Droid」が、ターミナル操作タスクのベンチマーク
Terminal-Benchで58.8%(±0.9)を記録し、
リーダーボード首位を獲得しました。Anthropic公式のClaude Code(43.2%)や
OpenAIのCodex CLI(42.8%)を大きく上回る結果です。
また、Factory AIは5,000万ドルのSeries B資金調達(評価額3億ドル)を実施し、
「any model / any interface」戦略でエンタープライズ市場に本格参入しています。
📊 Terminal-Bench スコア比較
58.8%
Factory Droid
(Opus 4.1) ±0.9
50.5%
Droid Sonnet 4
±1.4
43.2%
Claude Code
(Opus 4)
💰 資金調達
$50M
Series B ラウンド(評価額 $300M)
NEA
Sequoia
J.P. Morgan
NVIDIA
Terminal-Benchは、スタンフォード大学とLaudeのコラボレーションによる、
ターミナル環境での実作業タスクを対象としたAIエージェント評価ベンチマークです。
現行バージョンはv0.1.1(Core 80タスク)で、実運用に近い複雑なタスクを評価します。
- Linuxカーネルのビルド:実際の開発ワークフローを再現
- Git Webサーバ構築:複数ツールの連携が必要
- OpenSSL自己署名証明書作成:セキュリティ関連タスク
- FastText機械学習:データサイエンスワークフロー
- Docker化された評価環境:再現性の高い検証
| 比較項目 |
スコア差 |
相対改善率 |
| Droid vs Claude Code |
+15.6pt |
+36% |
| Droid vs Codex CLI |
+16.0pt |
+37% |
| Droid vs Warp |
+6.8pt |
+13% |
単一モデル×単一エージェント設計でこの改善率を実現している点が注目されます。
ただし、上位でも60%未満という天井感は、実運用では人間の監督とガードレールが
不可欠な状況を示しています。
🔄モデル非依存
"Any Model"戦略により、Anthropic(Opus/Sonnet 4)とOpenAI(GPT-5)の両方で上位達成。
エージェント側の設計(探索・ツール設計・プロンプト最適化)が優れていることを実証。
🖥️インターフェース非依存
CLI・IDE・Slack・Linear・Browserに対応。モバイルやSlackからでもコーディング作業が可能な
マルチプラットフォーム設計。
🏢エンタープライズ実績
MongoDB・EY・Bayer・Zapier・Clariなどの大手企業での導入実績。
31倍の高速化、96.1%の移行時間短縮などの効果を実現。
※ ベンダー自己申告値。導入企業ごとに効果は異なる可能性があります
- Claude Code (Anthropic):43.2%。長時間タスク耐性やSWE-benchで強いが、
Terminal-BenchではDroidに劣後
- OpenAI Codex CLI:42.8%。CLIエージェントスタックは活発化しているが、
現時点ではDroid(GPT-5版)が上位互換のスコア
- 他エージェント(OB-1, Warpなど):56.7%、52.0%。マルチモデルやデスクトップ統合の
工夫で強いが、Droidの単一モデル構成が総合で上回る
注意点と実務への適用
- ベンチマーク更新の可能性:実行条件(バージョン、リトライ、best-of-k)で順位が変動する可能性
- 共通の失敗モード:待機不足、ターミナルクラッシュ、エッジケース未対応が弱点
- 人間の監督が必須:環境の安全策(権限管理、サンドボックス、ロールバック)が不可欠
- 社内環境での再検証:モノレポ、レガシーCI、ネットワーク制約など本番固有の摩擦は別途評価が必要
- 投資トレンド:5,000万ドル調達と大手投資家の参画は、AIソフトウェア開発自動化市場の
成長を示す明確なシグナル
- ベンダーロックイン回避:「any model / any interface」戦略は、企業のLLM調達・
切替戦略にフィットする設計思想
- エンタープライズ採用加速:実績ある大手企業での導入事例が、他企業の採用を後押し
- ベンチマーク標準化の進展:Terminal-Benchのような実務寄りベンチマークが
業界標準として定着する可能性