要約: EmbeddingGemma は Google の多言語・軽量な埋め込みモデル。最大約 2K 入力、 Matryoshka Representation Learning により 768→128 次元へ可変、量子化で RAM < 200MB、 EdgeTPU で ~20ms 級の推論事例。RAG/検索/類似性/分類/クラスタリングに即投入しやすい一方、 量子化時の精度低下や一部端末の制約には注意。
sentence-transformers を準備(pip install -U sentence-transformers)。SentenceTransformer("google/embeddinggemma-300m")。