Différences

Ci-dessous, les différences entre deux révisions de la page.

--- informatique:ai_lm [24/01/2026 09:54] – [llama.cpp] cyrille
+++ informatique:ai_lm [01/03/2026 14:05] (Version actuelle) – [Compilation pour GPU] cyrille
@@ Ligne 14: / Ligne 14: @@
   * [[/informatique/ai_lm/ai_image|AI Image]]
   * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]
+  * [[/informatique/ai_lm/ai_vision|AI Vision]]
 ===== Glossaire =====
@@ Ligne 40: / Ligne 41: @@
 [[https://claude.ai/share/5d0d1604-20cd-4ec9-9f39-c2797197603d|Comment faire pour qu'un appel à un LLM ait un résultat reproductible d'une fois sur l'autre ?]]
+Hugging Face entreprise française créée en 2016 -> [[https://www.youtube.com/watch?v=8UWCLts47Ms|L'IA open source par Hugging Face - Gen AI Nantes]] 2024-01 par [[https://www.youtube.com/@juliensimonfr|Julien Simon]]
 ===== Sur les perfs =====
@@ Ligne 189: / Ligne 191: @@
 </code>
+nouveautés hiver 2025-26:
+  * la répartition automatique entre GPU et CPU, plus besoin de gérer ''--n-gpu-layers''
+  * [[https://github.com/ggml-org/llama.cpp/pull/16391|host-memory prompt caching]] : <del>j'ai des scripts qui se sont mis à planter à cause de réponse avec ''content'' vide et ''reasoning_content'' archi plein. L'utilisation de l'option ''--cache-ram 0'' semble résoudre ces plantages.</del>
 === chat templates ===
@@ Ligne 206: / Ligne 211: @@
                                         list of built-in templates:
                                         bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml,
-                                        command-r, deepseek, deepseek2, deepseek3, exaone3, exaone4, falcon3,
+                                        command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3,
-                                        gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense,
+                                        exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2,
-                                        hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos,
+                                        hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys,
-                                        llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1,
+                                        llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm,
-                                        mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch,
+                                        mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7,
-                                        openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss,
+                                        mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3,
-                                        smolvlm, vicuna, vicuna-orca, yandex, zephyr
+                                        phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca,
+                                        yandex, zephyr
                                         (env: LLAMA_ARG_CHAT_TEMPLATE)
@@ Ligne 218: / Ligne 224: @@
 </code>
-=== models ===
+=== models GGUF format ===
 Modèles:
@@ Ligne 248: / Ligne 254: @@
 deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg]
  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /
+</code>
+Ma dernière installation :
+<code bash>
+sudo apt install nvidia-headless-590-open nvidia-utils-590 nvidia-cuda-toolkit nvidia-cuda-dev
+Package: nvidia-headless-590-open
+Version: 590.48.01-0ubuntu0.24.04.1
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble-updates/restricted amd64 Packages
+Package: nvidia-cuda-toolkit
+Version: 12.0.140~12.0.1-4build4
+APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble/multiverse amd64 Packages
+# Je ne comprends pas j'ai pourtant un /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
+# qui pointe sur /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
 </code>
@@ Ligne 297: / Ligne 319: @@
 user	104m56,615s
 sys	3m45,431s
+# Plus récemment
+real	6m35,663s
+user	61m37,436s
+sys	2m37,613s
 </code>
+Avec CUDA 13.1 llama.cpp plante direct à la 1ère requête, mais sans message dans syslog : ce n'est donc pas le driver mais le logiciel llama.cpp qui ne support pas cette version de CUDA :
+<code>
+/home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/ggml-cuda.cu:97: CUDA error
+CUDA error: invalid argument
+  current device: 0, in function ggml_cuda_mul_mat_q at /home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/mmq.cu:179
+</code>
 ==== ollama ====
@@ Ligne 311: / Ligne 345: @@
 ==== koboldcpp ====
+A single self-contained distributable that builds off **llama.cpp** and adds many additional powerful features
 https://github.com/LostRuins/koboldcpp
@@ Ligne 334: / Ligne 370: @@
   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]
-==== LiteLLM ====
-https://github.com/BerriAI/litellm
-==== Tabby ML ====
-Est à la fois le serveur de model et l'[[#tabby|assistant de code]].
-https://tabby.tabbyml.com/docs/quick-start/installation/linux/
-Fourni llama.cpp.