Chez Galadrim, j'ai mené une étude approfondie sur les performances des différents LLMs du marché (OpenAI, Anthropic, Mistral, Llama).
L'objectif était de définir des abaques de coût/performance pour guider nos choix d'architecture RAG.
J'ai développé un protocole de test automatisé mesurant la latence (TTFT, TPS) et la qualité des réponses sur des tâches spécifiques (résumé, extraction, classification).