Optimisation & Benchmark LLM

Réduction des coûts et de la latence pour la mise en production d'IA Générative.

Chez Galadrim, j'ai mené une étude approfondie sur les performances des différents LLMs du marché (OpenAI, Anthropic, Mistral, Llama).

L'objectif était de définir des abaques de coût/performance pour guider nos choix d'architecture RAG.

J'ai développé un protocole de test automatisé mesurant la latence (TTFT, TPS) et la qualité des réponses sur des tâches spécifiques (résumé, extraction, classification).

Lire l'article complet sur le blog de Galadrim →