Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm [20/01/2026 09:46] – [AI Language Model] cyrille
+++ informatique:ai_lm [01/03/2026 14:05] (Version actuelle) – [Compilation pour GPU] cyrille
@@ Ligne 3: / Ligne 3: @@
 Les modèles d’intelligence artificielle (IA), des simples algorithmes de régression jusqu’aux réseaux neuronaux complexes utilisés dans l’apprentissage profond, fonctionnent grâce à une logique mathématique. Toutes les données utilisées par un modèle d’intelligence artificielle, y compris les données non structurées comme le texte, l’audio ou les images, doivent être exprimées sous forme numérique. Le plongement vectoriel, ou représentation vectorielle, est une méthode qui permet de convertir un point de données non structuré en un tableau de nombres, tout en conservant la signification originale des données.
-Explications:
+Articles:
   * introduction aux LLM : [[https://www.linagora.ai/introduction-aux-llm|Démystifier les (LLM) et comment les mettre en œuvre chez vous pour les étudier de plus près]]
   * [[https://berdachuk.com/ai/how-to-run-llms-locally|How to Run LLMs Locally: A Complete Step-by-Step Guide]] (//2025-05-27//) sur la quatification, format GGUF, Group Size Suffix (S/M/L)
+  * [[https://zonetuto.fr/intelligence-artificielle/jai-lance-un-mini-chatgpt-en-local-sur-mon-cpu-avec-gpt4all/|J’ai lancé un mini ChatGPT en local sur mon CPU avec GPT4All]]
+  * [[https://zonetuto.fr/intelligence-artificielle/ajouter-un-modele-au-format-ggml-dans-gpt4all-sur-linux-ubuntu/|Ajouter un modèle au format ggml dans GPT4All sur Linux Ubuntu]]
 Autres pages:
@@ Ligne 12: / Ligne 14: @@
   * [[/informatique/ai_lm/ai_image|AI Image]]
   * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]
+  * [[/informatique/ai_lm/ai_vision|AI Vision]]
 ===== Glossaire =====
@@ Ligne 38: / Ligne 41: @@
 [[https://claude.ai/share/5d0d1604-20cd-4ec9-9f39-c2797197603d|Comment faire pour qu'un appel à un LLM ait un résultat reproductible d'une fois sur l'autre ?]]
+Hugging Face entreprise française créée en 2016 -> [[https://www.youtube.com/watch?v=8UWCLts47Ms|L'IA open source par Hugging Face - Gen AI Nantes]] 2024-01 par [[https://www.youtube.com/@juliensimonfr|Julien Simon]]
 ===== Sur les perfs =====
@@ Ligne 184: / Ligne 188: @@
 <code bash>
 ./bin/llama-server -m devstralQ5_K_M.gguf --port 8012 --jinja --ctx-size 20000
+./bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
-~/Code/bronx/AI_Coding/llama.cpp/build/bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
 </code>
+nouveautés hiver 2025-26:
+  * la répartition automatique entre GPU et CPU, plus besoin de gérer ''--n-gpu-layers''
+  * [[https://github.com/ggml-org/llama.cpp/pull/16391|host-memory prompt caching]] : <del>j'ai des scripts qui se sont mis à planter à cause de réponse avec ''content'' vide et ''reasoning_content'' archi plein. L'utilisation de l'option ''--cache-ram 0'' semble résoudre ces plantages.</del>
+=== chat templates ===
 Quid des chat formats ? Est-ce lié au modèle ?
@@ Ligne 203: / Ligne 211: @@
                                         list of built-in templates:
                                         bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml,
-                                        command-r, deepseek, deepseek2, deepseek3, exaone3, exaone4, falcon3,
+                                        command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3,
-                                        gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense,
+                                        exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2,
-                                        hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos,
+                                        hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys,
-                                        llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1,
+                                        llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm,
-                                        mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch,
+                                        mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7,
-                                        openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss,
+                                        mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3,
-                                        smolvlm, vicuna, vicuna-orca, yandex, zephyr
+                                        phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca,
+                                        yandex, zephyr
                                         (env: LLAMA_ARG_CHAT_TEMPLATE)
 ...
 </code>
+=== models GGUF format ===
 Modèles:
@@ Ligne 243: / Ligne 254: @@
 deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg]
  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /
+</code>
+Ma dernière installation :
+<code bash>
+sudo apt install nvidia-headless-590-open nvidia-utils-590 nvidia-cuda-toolkit nvidia-cuda-dev
+Package: nvidia-headless-590-open
+Version: 590.48.01-0ubuntu0.24.04.1
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble-updates/restricted amd64 Packages
+Package: nvidia-cuda-toolkit
+Version: 12.0.140~12.0.1-4build4
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble/multiverse amd64 Packages
+# Je ne comprends pas j'ai pourtant un /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
+# qui pointe sur /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
 </code>
@@ Ligne 292: / Ligne 319: @@
 user	104m56,615s
 sys	3m45,431s
+# Plus récemment
+real	6m35,663s
+user	61m37,436s
+sys	2m37,613s
 </code>
+Avec CUDA 13.1 llama.cpp plante direct à la 1ère requête, mais sans message dans syslog : ce n'est donc pas le driver mais le logiciel llama.cpp qui ne support pas cette version de CUDA :
+<code>
+/home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/ggml-cuda.cu:97: CUDA error
+CUDA error: invalid argument
+  current device: 0, in function ggml_cuda_mul_mat_q at /home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/mmq.cu:179
+</code>
 ==== ollama ====
@@ Ligne 306: / Ligne 345: @@
 ==== koboldcpp ====
+A single self-contained distributable that builds off **llama.cpp** and adds many additional powerful features
 https://github.com/LostRuins/koboldcpp
@@ Ligne 329: / Ligne 370: @@
   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]
-==== LiteLLM ====
-https://github.com/BerriAI/litellm
-==== Tabby ML ====
-Est à la fois le serveur de model et l'[[#tabby|assistant de code]].
-https://tabby.tabbyml.com/docs/quick-start/installation/linux/
-Fourni llama.cpp.