Les embeddings sont la brique de base de tout système de recherche sémantique ou RAG. OpenAI a sorti text-embedding-3 en janvier 2024 : meilleure qualité, prix divisé par 5.

Défaut recommandé 2024 : text-embedding-3-small pour 90 % des usages. text-embedding-3-large uniquement si vous avez mesuré un vrai gain qualité.

Choisir la dimension

  • text-embedding-3-small : 1536 dims, 0,02 $/M tokens
  • text-embedding-3-large : 3072 dims, 0,13 $/M tokens
  • Vous pouvez tronquer la dimension (256, 512, 1024) sans réentraîner

Le pipeline standard

  1. Chunking : 500-800 tokens par chunk avec overlap
  2. Embed chaque chunk
  3. Stocker dans pgvector / Pinecone / Qdrant
  4. À la recherche : embed la query, top-k cosine similarity

Les pièges classiques

  • Chunks trop grands (recherche imprécise)
  • Chunks trop petits (perte de contexte)
  • Ne pas re-embedder après changement de modèle
  • Ignorer la normalisation avant cosine similarity

Coût réel à volume

Indexer 10 000 documents de 2000 tokens en small : 40 cents. Requêtes : quasi gratuit. La ligne de coût réelle est le LLM d'augmentation, pas les embeddings.

Un système de recherche sémantique coûte moins de 5 € / mois à mettre en place jusqu'à 50 000 documents. Pas d'excuse.

On monte votre RAG ?

En 30 minutes on peut cadrer votre pipeline embeddings. Réservez un créneau. À lire : Choisir sa base vectorielle.

A project to launch or to rescue?

30-minute free call. We look together at what's blocking you and where to start.

Book a discovery call
Embeddings OpenAI : comment les utiliser proprement dans un SaaS · Perrine Honoré