Daily AI News — 2026/02/20

Gemini 3.1 Pro（Preview）
推論能力の飛躍的進化

2026年2月19日発表。前モデルからわずか数ヶ月で推論能力が2.5倍に飛躍。ARC-AGI-2で77.1%を達成し、人間の壁（~60%）を突破した次世代推論エンジン

77.1%

ARC-AGI-2（流動性知能）

80.6%

SWE-Bench Verified

94.3%

GPQA Diamond（科学知識）

$14

vs Claude Opus $30（半額以下）

Paradigm Shift

知識の蓄積から、思考の深化へ。
「.1」が示す質的転換

Gemini 3.1 Pro（プレビュー版）は、複雑な推論やエージェント主導型タスクに特化した最新モデルです。前モデルのGemini 3 Proからわずか数ヶ月で推論能力が飛躍的に進化し、「思考プロセス（Reasoning）」と「Agentic Workflow」に最適化されました。

Gemini 3.0 Pro

Static Knowledge

Knowledge Retrieval
Pattern Matching

→

Gemini 3.1 Pro

Fluid Intelligence

Reasoning
Agentic Workflow
Observe → Reason → Verify → Act

Benchmark

流動性知能の証明：ARC-AGI-2で77.1%を記録

未知の論理パターンを解く「流動性知能」の指標ARC-AGI-2で、人間の平均（~60%）を大きく超える77.1%を達成。前モデル（31.1%）から2.5倍の性能向上です。

Gemini 3.1 Pro

77.1%

Claude Opus 4.6

68.8%

GPT-5.2

52.9%

Gemini 3.0 Pro

31.1%

Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2 Human Average (~60%)

Scientific Reasoning

博士号レベルの科学的知識と推論能力

生物学、物理学、化学などの専門分野において、人間の専門家レベルの知識精度を発揮。既存ベンチマークが飽和するほどの高スコアを達成しました。

GPQA Diamond

科学知識 (Biology, Physics, Chem)

94.3%

vs GPT-5.2 (92.4%)

Humanity's Last Exam

超難問・ツールなし

44.4%

New World Record

SciCode

科学研究コーディング

59.0%

専門家レベルのシミュレーション

Agentic Engineering

コードを書くだけでなく、環境を操作して解決する

従来のAI（Chat）がコード生成で終わるのに対し、Gemini 3.1はターミナルを操作し、実行・検証・修正のループを自律的に回す「エージェント」として動作します。

従来のAI (Chat)

コードを生成して終了。実行結果の確認や修正は人間が行う必要がありました。

Gemini 3.1 (Agent)

実行 → 検証 → 修正のループを自律的に回し、問題を解決まで導きます。

SWE-Bench Verified 80.6%

Terminal-Bench 2.0 68.5%Best in Class

APEX-Agents 33.5%

New Feature

思考の深さを制御する：Thinking Modeの戦略的活用

タスクの複雑さに応じて、AIの思考時間を「Low / Medium / High」で調整可能。新設の「Medium」モードは実務で最もバランスが良い設定です。

LOW

Speed & Chat

単純な応答、低コスト。日常的なチャットや簡単な質問に最適。

NEW

MEDIUM

Balanced

ビジネスロジック、データ整理。応答速度と推論精度のバランスが良く、実務利用に最適。

HIGH

Deep Reasoning

科学研究、複雑な推論（ARC-AGI）。最大限の思考時間を確保して精度を追求。

IDE Revolution

エージェント開発環境の強化
Google Antigravity + 専用エンドポイント

自律的に動くAIエージェントを管理・オーケストレーションする全く新しい統合開発環境「Google Antigravity」が発表。さらに、カスタムツールやBashコマンドの呼び出しに特化した専用エンドポイント（gemini-3.1-pro-preview-customtools）が提供され、エージェントワークフローの信頼性が向上しています。

Google Antigravity — Bento Box Layout

Editor View + Artifacts

エージェントが生成した成果物（Artifacts）を直接レビュー・修正するワークスペース。コードだけでなく、UI生成レポートも成果物として表示。

Manager Surface

複数のエージェントを俯瞰・管理するコントロールパネル。

Frontend Architect Backend Engineer QA Tester DevOps

Multimodal

マルチモーダル：ピクセルから「コードによる描画」へ

テキストプロンプトからWebサイトに直接埋め込み可能なアニメーションSVGを生成。ファイルサイズはわずか数KBで、解像度を問わず劣化しない高品質なベクター画像を作成できます。画像、音声、動画、全コードリポジトリを含む1Mトークンのコンテキストをネイティブに理解します。

Competitive Analysis

競合比較：Gemini 3.1 Pro vs Claude Opus vs GPT-5.2

Category	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
Abstract Reasoning (ARC)	77.1%	68.8%	52.9%
Scientific Knowledge (GPQA)	94.3%	91.3%	92.4%
Cost Efficiency	High	Low ($$$)	Med
Agentic Coding	Strong	Strong	Moderate
User Preference (Elo/Vibe)	Good	Top	Good

Gemini Win: 推論 (ARC)、科学 (GPQA)、コストパフォーマンス、Googleエコシステム連携

Competitor Win: Claude Opusは専門コーディングやElo（ユーザーの好み）、特定のツール操作で僅差リード

Cost Performance

圧倒的なコストパフォーマンス

性能は最上位クラスながら、価格はClaude Opusの半分以下。コンテキストキャッシュを活用すれば、入力コストはさらに1/10に。大規模運用に現実的な解を提供します。

$14

Gemini 3.1 Pro

$30

Claude Opus

Context Caching利用時: ~$1.40（1/10） — 入力$2/Mトークン、出力$12/Mトークン。Batch APIでさらに削減可能。

Long Context

100万トークンの文脈とNotebookLMによる知識統合

膨大なマニュアルや決算資料、1時間の会議動画を一括処理。NotebookLMと連携すれば、資料をアップロードするだけでAI同士が議論する「音声要約（Audio Overview）」を生成したり、横断的な検索・分析が可能に。

1M Context Window

PDF / 1hr Video / Full Code Repo

→

Gemini 3.1 Pro

Retrieval: MRCR v2 84.9%

→

Output

Summary / Audio Overview / Analysis

Community Feedback

コミュニティの評価：ベンチマークと実体験のギャップ

PROS (High Evaluation)

フロントエンドのUI生成や多段階の複雑な分析タスクで「生産性が劇的に向上」
Coding Index首位奪取（コーディング能力で業界トップ評価）
「推論能力が2倍になった」（VentureBeat）
科学研究の頼れるパートナー

CONS (Areas for Improvement)

実体験との乖離：法務文書レビューや「自然さ」「丁寧さ」重視タスクではClaude Sonnet 4.6やOpus 4.6が優れる評価も
プレビュー特有の不安定性：Antigravity使用時のファイル破損バグ
ハルシネーション（嘘の出力）の残存、指示を無視して同じエラーを繰り返す問題

推論エンジンとしての性能は極めて高い一方、プレビュー版ゆえの不安定さが残る。API経由でのエンジニアリング利用で真価を発揮。無料枠での検証利用を推奨。

Use Cases

推奨ユースケース：どのタスクにGeminiを選ぶべきか

他モデルを検討

出力の「自然さ」「丁寧さ」重視の文章作成 → Claude Sonnet/Opus
法務文書レビューなど厳密なニュアンスが求められるタスク
安定性が重要な本番ワークフロー（プレビュー版のため）

Conclusion

複雑な課題解決のための賢い選択

Gemini 3.1 Proは「流動性知能」の飛躍により、AIをチャットボットから「思考するパートナー」へと進化させました。

Reference Links

公式ドキュメント・リソース

知識の蓄積から、思考の深化へ。「.1」が示す質的転換

Static Knowledge

Fluid Intelligence

流動性知能の証明：ARC-AGI-2で77.1%を記録

博士号レベルの科学的知識と推論能力

GPQA Diamond

Humanity's Last Exam

SciCode

コードを書くだけでなく、環境を操作して解決する

従来のAI (Chat)

Gemini 3.1 (Agent)

思考の深さを制御する：Thinking Modeの戦略的活用

LOW

MEDIUM

HIGH

エージェント開発環境の強化Google Antigravity + 専用エンドポイント

Editor View + Artifacts

Manager Surface

マルチモーダル：ピクセルから「コードによる描画」へ

競合比較：Gemini 3.1 Pro vs Claude Opus vs GPT-5.2

圧倒的なコストパフォーマンス

100万トークンの文脈とNotebookLMによる知識統合

1M Context Window

Gemini 3.1 Pro

Output

コミュニティの評価：ベンチマークと実体験のギャップ

PROS (High Evaluation)

CONS (Areas for Improvement)

推奨ユースケース：どのタスクにGeminiを選ぶべきか

Gemini 3.1 Pro 推奨

他モデルを検討

複雑な課題解決のための賢い選択

公式ドキュメント・リソース

Google / DeepMind 公式情報

Google Cloud / 開発者向けドキュメント

ARC Prize 公式（ベンチマーク）

知識の蓄積から、思考の深化へ。
「.1」が示す質的転換

エージェント開発環境の強化
Google Antigravity + 専用エンドポイント