🏠 TOPに戻る

EmbeddingGemma

Gemma Embedding API 概要と活用ポイント(2025/09/06)

軽量 ~300M 100+ 言語 オンデバイス/オフライン MRL: 768→128

概要とポイント

要約: EmbeddingGemma は Google の多言語・軽量な埋め込みモデル。最大約 2K 入力、 Matryoshka Representation Learning により 768→128 次元へ可変、量子化で RAM < 200MB、 EdgeTPU で ~20ms 級の推論事例。RAG/検索/類似性/分類/クラスタリングに即投入しやすい一方、 量子化時の精度低下や一部端末の制約には注意。

  • 100 以上の言語に対応し、モバイル/PC でのオフライン実行を想定。
  • MRL により出力次元をタスク/リソースに合わせて調整(768/512/256/128)。
  • 低メモリ・低遅延でプライバシーに配慮したオンデバイス検索/RAG を実現。
  • Sentence Transformers 等のエコシステムと親和性が高く、導入が容易。
~300Mパラメータ
~2K入力トークン
<200MB量子化 RAM 目安
~20msEdge 推論例

技術と使いどころ

オンデバイス検索/RAG

端末内ドキュメントのベクトル検索、FAQ、簡易 RAG。低遅延・プライバシー保持。

多言語ドメイン検索

金融/医療等の分野で類似検索・分類・監査ログ照会を高速化。

エコシステム連携

Sentence Transformers / LangChain / LlamaIndex / Transformers.js と容易に統合。

チューニング指針

MRL 次元・量子化・正規化(小文字化/句読点)で精度/速度/容量のバランス最適化。
注意: デバイス/量子化条件で精度が変動します。現場データでの PoC 検証を推奨。

導入手順(最短)

  1. Python と sentence-transformers を準備(pip install -U sentence-transformers)。
  2. モデルをロード:SentenceTransformer("google/embeddinggemma-300m")
  3. コーパスを正規化し、埋め込みを生成・格納(例:FAISS など)。
  4. 類似検索/RAG の精度・レイテンシ・メモリを測定し、MRL 次元と量子化を調整。

参考リンク / ソース