🏠 TOPに戻る

🏆 Factory AI Droid

2025年9月26日 - Terminal-Benchトップ58.8%達成

エグゼクティブサマリー

Factory AIの「Droid」が、ターミナル操作タスクのベンチマーク Terminal-Bench58.8%(±0.9)を記録し、 リーダーボード首位を獲得しました。Anthropic公式のClaude Code(43.2%)や OpenAIのCodex CLI(42.8%)を大きく上回る結果です。 また、Factory AIは5,000万ドルのSeries B資金調達(評価額3億ドル)を実施し、 「any model / any interface」戦略でエンタープライズ市場に本格参入しています。

📊 Terminal-Bench スコア比較

58.8%
Factory Droid
(Opus 4.1) ±0.9
52.5%
Droid GPT-5
±2.1
50.5%
Droid Sonnet 4
±1.4
43.2%
Claude Code
(Opus 4)
42.8%
Codex CLI
(OpenAI)

💰 資金調達

$50M
Series B ラウンド(評価額 $300M)
NEA Sequoia J.P. Morgan NVIDIA

📋Terminal-Benchとは

Terminal-Benchは、スタンフォード大学とLaudeのコラボレーションによる、 ターミナル環境での実作業タスクを対象としたAIエージェント評価ベンチマークです。 現行バージョンはv0.1.1(Core 80タスク)で、実運用に近い複雑なタスクを評価します。

  • Linuxカーネルのビルド:実際の開発ワークフローを再現
  • Git Webサーバ構築:複数ツールの連携が必要
  • OpenSSL自己署名証明書作成:セキュリティ関連タスク
  • FastText機械学習:データサイエンスワークフロー
  • Docker化された評価環境:再現性の高い検証

🎯スコアの実務的意味

比較項目 スコア差 相対改善率
Droid vs Claude Code +15.6pt +36%
Droid vs Codex CLI +16.0pt +37%
Droid vs Warp +6.8pt +13%

単一モデル×単一エージェント設計でこの改善率を実現している点が注目されます。 ただし、上位でも60%未満という天井感は、実運用では人間の監督とガードレールが 不可欠な状況を示しています。

Factory AIの戦略的強み

🔄モデル非依存

"Any Model"戦略により、Anthropic(Opus/Sonnet 4)とOpenAI(GPT-5)の両方で上位達成。 エージェント側の設計(探索・ツール設計・プロンプト最適化)が優れていることを実証。

🖥️インターフェース非依存

CLI・IDE・Slack・Linear・Browserに対応。モバイルやSlackからでもコーディング作業が可能な マルチプラットフォーム設計。

🏢エンタープライズ実績

MongoDB・EY・Bayer・Zapier・Clariなどの大手企業での導入実績。 31倍の高速化、96.1%の移行時間短縮などの効果を実現。

📈エンタープライズ効果指標

31倍
機能提供速度
96.1%
移行時間短縮
95.8%
オンコール短縮

※ ベンダー自己申告値。導入企業ごとに効果は異なる可能性があります

🆚競合比較

  • Claude Code (Anthropic):43.2%。長時間タスク耐性やSWE-benchで強いが、 Terminal-BenchではDroidに劣後
  • OpenAI Codex CLI:42.8%。CLIエージェントスタックは活発化しているが、 現時点ではDroid(GPT-5版)が上位互換のスコア
  • 他エージェント(OB-1, Warpなど):56.7%、52.0%。マルチモデルやデスクトップ統合の 工夫で強いが、Droidの単一モデル構成が総合で上回る

注意点と実務への適用

  • ベンチマーク更新の可能性:実行条件(バージョン、リトライ、best-of-k)で順位が変動する可能性
  • 共通の失敗モード:待機不足、ターミナルクラッシュ、エッジケース未対応が弱点
  • 人間の監督が必須:環境の安全策(権限管理、サンドボックス、ロールバック)が不可欠
  • 社内環境での再検証:モノレポ、レガシーCI、ネットワーク制約など本番固有の摩擦は別途評価が必要

🌟市場への影響

  • 投資トレンド:5,000万ドル調達と大手投資家の参画は、AIソフトウェア開発自動化市場の 成長を示す明確なシグナル
  • ベンダーロックイン回避:「any model / any interface」戦略は、企業のLLM調達・ 切替戦略にフィットする設計思想
  • エンタープライズ採用加速:実績ある大手企業での導入事例が、他企業の採用を後押し
  • ベンチマーク標準化の進展:Terminal-Benchのような実務寄りベンチマークが 業界標準として定着する可能性