Daily AI News — 2026/02/20

Gemini 3.1 Pro(Preview)
推論能力の飛躍的進化

2026年2月19日発表。前モデルからわずか数ヶ月で推論能力が2.5倍に飛躍。ARC-AGI-2で77.1%を達成し、人間の壁(~60%)を突破した次世代推論エンジン

Gemini 3.1 Pro
77.1%
ARC-AGI-2(流動性知能)
80.6%
SWE-Bench Verified
94.3%
GPQA Diamond(科学知識)
$14
vs Claude Opus $30(半額以下)

知識の蓄積から、思考の深化へ。
「.1」が示す質的転換

Gemini 3.1 Pro(プレビュー版)は、複雑な推論やエージェント主導型タスクに特化した最新モデルです。前モデルのGemini 3 Proからわずか数ヶ月で推論能力が飛躍的に進化し、「思考プロセス(Reasoning)」と「Agentic Workflow」に最適化されました。

Gemini 3.0 Pro

Static Knowledge

Knowledge Retrieval
Pattern Matching

Gemini 3.1 Pro

Fluid Intelligence

Reasoning
Agentic Workflow
Observe → Reason → Verify → Act

質的転換

流動性知能の証明:ARC-AGI-2で77.1%を記録

未知の論理パターンを解く「流動性知能」の指標ARC-AGI-2で、人間の平均(~60%)を大きく超える77.1%を達成。前モデル(31.1%)から2.5倍の性能向上です。

Gemini 3.1 Pro
77.1%
Claude Opus 4.6
68.8%
GPT-5.2
52.9%
Gemini 3.0 Pro
31.1%
Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2 Human Average (~60%)
流動性知能

博士号レベルの科学的知識と推論能力

生物学、物理学、化学などの専門分野において、人間の専門家レベルの知識精度を発揮。既存ベンチマークが飽和するほどの高スコアを達成しました。

GPQA Diamond

科学知識 (Biology, Physics, Chem)
94.3%
vs GPT-5.2 (92.4%)

Humanity's Last Exam

超難問・ツールなし
44.4%
New World Record

SciCode

科学研究コーディング
59.0%
専門家レベルのシミュレーション
科学的知識

コードを書くだけでなく、環境を操作して解決する

従来のAI(Chat)がコード生成で終わるのに対し、Gemini 3.1はターミナルを操作し、実行・検証・修正のループを自律的に回す「エージェント」として動作します。

従来のAI (Chat)

コードを生成して終了。実行結果の確認や修正は人間が行う必要がありました。

Gemini 3.1 (Agent)

実行 → 検証 → 修正のループを自律的に回し、問題を解決まで導きます。

SWE-Bench Verified 80.6%
Terminal-Bench 2.0 68.5%Best in Class
APEX-Agents 33.5%
エージェント型コーディング

思考の深さを制御する:Thinking Modeの戦略的活用

タスクの複雑さに応じて、AIの思考時間を「Low / Medium / High」で調整可能。新設の「Medium」モードは実務で最もバランスが良い設定です。

LOW

Speed & Chat

単純な応答、低コスト。日常的なチャットや簡単な質問に最適。

NEW

MEDIUM

Balanced

ビジネスロジック、データ整理。応答速度と推論精度のバランスが良く、実務利用に最適。

HIGH

Deep Reasoning

科学研究、複雑な推論(ARC-AGI)。最大限の思考時間を確保して精度を追求。

Thinking Mode

エージェント開発環境の強化
Google Antigravity + 専用エンドポイント

自律的に動くAIエージェントを管理・オーケストレーションする全く新しい統合開発環境「Google Antigravity」が発表。さらに、カスタムツールやBashコマンドの呼び出しに特化した専用エンドポイント(gemini-3.1-pro-preview-customtools)が提供され、エージェントワークフローの信頼性が向上しています。

Google Antigravity — Bento Box Layout

Editor View + Artifacts

エージェントが生成した成果物(Artifacts)を直接レビュー・修正するワークスペース。コードだけでなく、UI生成レポートも成果物として表示。

Manager Surface

複数のエージェントを俯瞰・管理するコントロールパネル。

Frontend Architect Backend Engineer QA Tester DevOps
Google Antigravity

マルチモーダル:ピクセルから「コードによる描画」

テキストプロンプトからWebサイトに直接埋め込み可能なアニメーションSVGを生成。ファイルサイズはわずか数KBで、解像度を問わず劣化しない高品質なベクター画像を作成できます。画像、音声、動画、全コードリポジトリを含む1Mトークンのコンテキストをネイティブに理解します。

SVG生成

競合比較:Gemini 3.1 Pro vs Claude Opus vs GPT-5.2

Category Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2
Abstract Reasoning (ARC) 77.1% 68.8% 52.9%
Scientific Knowledge (GPQA) 94.3% 91.3% 92.4%
Cost Efficiency High Low ($$$) Med
Agentic Coding Strong Strong Moderate
User Preference (Elo/Vibe) Good Top Good
Gemini Win: 推論 (ARC)、科学 (GPQA)、コストパフォーマンス、Googleエコシステム連携
Competitor Win: Claude Opusは専門コーディングやElo(ユーザーの好み)、特定のツール操作で僅差リード
競合比較

圧倒的なコストパフォーマンス

性能は最上位クラスながら、価格はClaude Opusの半分以下。コンテキストキャッシュを活用すれば、入力コストはさらに1/10に。大規模運用に現実的な解を提供します。

$14
Gemini 3.1 Pro
$30
Claude Opus
Context Caching利用時: ~$1.40(1/10) — 入力$2/Mトークン、出力$12/Mトークン。Batch APIでさらに削減可能。
コストパフォーマンス

100万トークンの文脈とNotebookLMによる知識統合

膨大なマニュアルや決算資料、1時間の会議動画を一括処理。NotebookLMと連携すれば、資料をアップロードするだけでAI同士が議論する「音声要約(Audio Overview)」を生成したり、横断的な検索・分析が可能に。

1M Context Window

PDF / 1hr Video / Full Code Repo

Gemini 3.1 Pro

Retrieval: MRCR v2 84.9%

Output

Summary / Audio Overview / Analysis

1Mコンテキスト

コミュニティの評価:ベンチマークと実体験のギャップ

PROS (High Evaluation)

  • フロントエンドのUI生成や多段階の複雑な分析タスクで「生産性が劇的に向上」
  • Coding Index首位奪取(コーディング能力で業界トップ評価)
  • 「推論能力が2倍になった」(VentureBeat)
  • 科学研究の頼れるパートナー

CONS (Areas for Improvement)

  • 実体験との乖離:法務文書レビューや「自然さ」「丁寧さ」重視タスクではClaude Sonnet 4.6やOpus 4.6が優れる評価も
  • プレビュー特有の不安定性:Antigravity使用時のファイル破損バグ
  • ハルシネーション(嘘の出力)の残存、指示を無視して同じエラーを繰り返す問題
推論エンジンとしての性能は極めて高い一方、プレビュー版ゆえの不安定さが残る。API経由でのエンジニアリング利用で真価を発揮。無料枠での検証利用を推奨。
コミュニティ評価

推奨ユースケース:どのタスクにGeminiを選ぶべきか

Gemini 3.1 Pro 推奨

  • 未知のバグ修正や複雑なコード解析(Software Engineering)
  • 科学論文の要約やデータ分析(Research)
  • 大量データの低コスト処理(Enterprise Batch)
  • 多段階のエージェントワークフロー(Agentic Tasks)

他モデルを検討

  • 出力の「自然さ」「丁寧さ」重視の文章作成 → Claude Sonnet/Opus
  • 法務文書レビューなど厳密なニュアンスが求められるタスク
  • 安定性が重要な本番ワークフロー(プレビュー版のため)
推奨ユースケース

複雑な課題解決のための賢い選択

Gemini 3.1 Proは「流動性知能」の飛躍により、AIをチャットボットから「思考するパートナー」へと進化させました。

結論