Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm:ai_agent [02/05/2026 09:50] – [AI Agent] cyrille
+++ informatique:ai_lm:ai_agent [06/05/2026 14:14] (Version actuelle) – [Spécialiser un Chat conversationnel] cyrille
@@ Ligne 27: / Ligne 27: @@
 J'ai mis du temps à me faire une idée sur l'utilité des agents ...
+==== Agent de codage ====
+  * voir [[/informatique/ai_lm/ai_coding|AI coding]]
 ==== Spécialiser un Chat conversationnel ====
@@ Ligne 43: / Ligne 47: @@
   * halluciner une certitude là où il devrait exprimer une incertitude conditionnelle
-La solution est donc l'orchestration d'agents spécialisés sur des tâches, des connaissances, des compétences.
+La solution est donc l'orchestration d'agents spécialisés sur des tâches, des connaissances, des compétences. Accompagnés de tools eux aussi spécialisés (description précise, simple et courte).
+J'ai fait des expériences avec de petits <del>LLM</del>/SLM et sans découpage et spécialisation des tâches ça ne va pas. Avec les ''tools descriptions'' + un gros ''System Prompt'' il ne reste plus beaucoup de ''Context Window'' pour le reste. Aussi l'inférence sur le sujet de l'utilisateur est encombrée par toutes ces données.
+<code>
+* Problème de la fenêtre de contexte (Context Window)
+  * Un System Prompt détaillé peut facilement consommer 5-10k tokens (surtout avec des exemples JSON, des règles strictes, etc.).
+  * Les descriptions des outils (ex: describe_collection, search) ajoutent 2-5k tokens supplémentaires.
+  * Résultat : Il reste peu de place pour :
+    * La question de l’utilisateur (ex: 50-200 tokens).
+    * Les réponses intermédiaires (ex: résultats de describe_collection).
+    * Les requêtes/réponses Typesense (ex: JSON de 1-2k tokens).
+  * Conséquences :
+    * Le modèle oublie des parties du System Prompt (ex: include_fields).
+    * Il ignore les contraintes (ex: utiliser uniquement les champs indexés).
+    * L’inférence devient moins précise car le contexte est "pollué" par des données techniques.
+* Problème de l’inférence encombrée
+  * Les petits LLMs (8B) ont une capacité limitée à gérer des instructions complexes en parallèle.
+  * Ils excellent pour des tâches simples et ciblées (ex: classification, Q&A basique).
+  * Ils saturent quand on leur demande de :
+    * Analyser une question utilisateur.
+    * Appeler describe_collection.
+    * Filtrer les champs indexés.
+    * Construire une requête search valide.
+    * Extraire des conditions des résultats.
+    * Générer des questions ciblées.
+  * Résultat : Le modèle saute des étapes ou invente des solutions (ex: utiliser des champs non indexés).
+</code>
 ==== Assistants personnel ====
@@ Ligne 114: / Ligne 145: @@
   * obligé de forker LLPhant pour monter la version openai-php en v0.192
-Par de ''clarify'' ou ''ask_user''. Je crois que ça pourrait être géré [[https://github.com/LLPhant/LLPhant/blob/main/src/Evaluation/Guardrails/Guardrails.php#L19|Guardrails::generateText()]] si l'on veut ajouter de l’interaction avec l'utilisateur.
+Le ''clarify'' ou ''ask_user'' a été ajouté : [[https://github.com/LLPhant/LLPhant/issues/481|About ask_user or clarify]] -> [[https://github.com/LLPhant/LLPhant/pull/484|add HumanInTheLoopTool for LLM-initiated user clarification]]