EmbeddingGemma

Gemma Embedding API 概要と活用ポイント（2025/09/06）

軽量 ~300M 100+ 言語オンデバイス/オフライン MRL: 768→128

概要とポイント

要約: EmbeddingGemma は Google の多言語・軽量な埋め込みモデル。最大約 2K 入力、 Matryoshka Representation Learning により 768→128 次元へ可変、量子化で RAM < 200MB、 EdgeTPU で ~20ms 級の推論事例。RAG/検索/類似性/分類/クラスタリングに即投入しやすい一方、量子化時の精度低下や一部端末の制約には注意。

100 以上の言語に対応し、モバイル/PC でのオフライン実行を想定。
MRL により出力次元をタスク/リソースに合わせて調整（768/512/256/128）。
低メモリ・低遅延でプライバシーに配慮したオンデバイス検索/RAG を実現。
Sentence Transformers 等のエコシステムと親和性が高く、導入が容易。

~300Mパラメータ

~2K入力トークン

<200MB量子化 RAM 目安

~20msEdge 推論例

技術と使いどころ

オンデバイス検索/RAG

端末内ドキュメントのベクトル検索、FAQ、簡易 RAG。低遅延・プライバシー保持。

多言語ドメイン検索

金融/医療等の分野で類似検索・分類・監査ログ照会を高速化。

エコシステム連携

Sentence Transformers / LangChain / LlamaIndex / Transformers.js と容易に統合。

チューニング指針

MRL 次元・量子化・正規化（小文字化/句読点）で精度/速度/容量のバランス最適化。

注意: デバイス/量子化条件で精度が変動します。現場データでの PoC 検証を推奨。

導入手順（最短）

Python と sentence-transformers を準備（pip install -U sentence-transformers）。
モデルをロード：SentenceTransformer("google/embeddinggemma-300m")。
コーパスを正規化し、埋め込みを生成・格納（例：FAISS など）。
類似検索/RAG の精度・レイテンシ・メモリを測定し、MRL 次元と量子化を調整。

参考リンク / ソース

日次スライド一覧