2025/09/26 - Factory AI Droid：Terminal-Benchトップ58.8%達成

エグゼクティブサマリー

Factory AIの「Droid」が、ターミナル操作タスクのベンチマーク Terminal-Benchで58.8%（±0.9）を記録し、リーダーボード首位を獲得しました。Anthropic公式のClaude Code（43.2%）や OpenAIのCodex CLI（42.8%）を大きく上回る結果です。また、Factory AIは5,000万ドルのSeries B資金調達（評価額3億ドル）を実施し、 「any model / any interface」戦略でエンタープライズ市場に本格参入しています。

📊 Terminal-Bench スコア比較

58.8%

Factory Droid

(Opus 4.1) ±0.9

52.5%

Droid GPT-5

±2.1

50.5%

Droid Sonnet 4

±1.4

43.2%

Claude Code

(Opus 4)

42.8%

Codex CLI

(OpenAI)

💰 資金調達

$50M

Series B ラウンド（評価額 $300M）

NEA Sequoia J.P. Morgan NVIDIA

📋Terminal-Benchとは

▼

Terminal-Benchは、スタンフォード大学とLaudeのコラボレーションによる、ターミナル環境での実作業タスクを対象としたAIエージェント評価ベンチマークです。現行バージョンはv0.1.1（Core 80タスク）で、実運用に近い複雑なタスクを評価します。

Linuxカーネルのビルド：実際の開発ワークフローを再現
Git Webサーバ構築：複数ツールの連携が必要
OpenSSL自己署名証明書作成：セキュリティ関連タスク
FastText機械学習：データサイエンスワークフロー
Docker化された評価環境：再現性の高い検証

🎯スコアの実務的意味

▼

比較項目	スコア差	相対改善率
Droid vs Claude Code	+15.6pt	+36%
Droid vs Codex CLI	+16.0pt	+37%
Droid vs Warp	+6.8pt	+13%

単一モデル×単一エージェント設計でこの改善率を実現している点が注目されます。ただし、上位でも60%未満という天井感は、実運用では人間の監督とガードレールが不可欠な状況を示しています。

✨Factory AIの戦略的強み

▼

🔄モデル非依存

"Any Model"戦略により、Anthropic（Opus/Sonnet 4）とOpenAI（GPT-5）の両方で上位達成。エージェント側の設計（探索・ツール設計・プロンプト最適化）が優れていることを実証。

🖥️インターフェース非依存

CLI・IDE・Slack・Linear・Browserに対応。モバイルやSlackからでもコーディング作業が可能なマルチプラットフォーム設計。

🏢エンタープライズ実績

MongoDB・EY・Bayer・Zapier・Clariなどの大手企業での導入実績。 31倍の高速化、96.1%の移行時間短縮などの効果を実現。

📈エンタープライズ効果指標

▼

31倍

機能提供速度

96.1%

移行時間短縮

95.8%

オンコール短縮

※ ベンダー自己申告値。導入企業ごとに効果は異なる可能性があります

🆚競合比較

▼

Claude Code (Anthropic)：43.2%。長時間タスク耐性やSWE-benchで強いが、 Terminal-BenchではDroidに劣後
OpenAI Codex CLI：42.8%。CLIエージェントスタックは活発化しているが、現時点ではDroid（GPT-5版）が上位互換のスコア
他エージェント（OB-1, Warpなど）：56.7%、52.0%。マルチモデルやデスクトップ統合の工夫で強いが、Droidの単一モデル構成が総合で上回る

注意点と実務への適用

ベンチマーク更新の可能性：実行条件（バージョン、リトライ、best-of-k）で順位が変動する可能性
共通の失敗モード：待機不足、ターミナルクラッシュ、エッジケース未対応が弱点
人間の監督が必須：環境の安全策（権限管理、サンドボックス、ロールバック）が不可欠
社内環境での再検証：モノレポ、レガシーCI、ネットワーク制約など本番固有の摩擦は別途評価が必要

🌟市場への影響

▼

投資トレンド：5,000万ドル調達と大手投資家の参画は、AIソフトウェア開発自動化市場の成長を示す明確なシグナル
ベンダーロックイン回避：「any model / any interface」戦略は、企業のLLM調達・切替戦略にフィットする設計思想
エンタープライズ採用加速：実績ある大手企業での導入事例が、他企業の採用を後押し
ベンチマーク標準化の進展：Terminal-Benchのような実務寄りベンチマークが業界標準として定着する可能性

🏆 Factory AI Droid