Outils pour utilisateurs

Outils du site


informatique:ai_lm

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm [20/01/2026 09:46] – [AI Language Model] cyrilleinformatique:ai_lm [01/03/2026 14:05] (Version actuelle) – [Compilation pour GPU] cyrille
Ligne 3: Ligne 3:
 Les modèles d’intelligence artificielle (IA), des simples algorithmes de régression jusqu’aux réseaux neuronaux complexes utilisés dans l’apprentissage profond, fonctionnent grâce à une logique mathématique. Toutes les données utilisées par un modèle d’intelligence artificielle, y compris les données non structurées comme le texte, l’audio ou les images, doivent être exprimées sous forme numérique. Le plongement vectoriel, ou représentation vectorielle, est une méthode qui permet de convertir un point de données non structuré en un tableau de nombres, tout en conservant la signification originale des données. Les modèles d’intelligence artificielle (IA), des simples algorithmes de régression jusqu’aux réseaux neuronaux complexes utilisés dans l’apprentissage profond, fonctionnent grâce à une logique mathématique. Toutes les données utilisées par un modèle d’intelligence artificielle, y compris les données non structurées comme le texte, l’audio ou les images, doivent être exprimées sous forme numérique. Le plongement vectoriel, ou représentation vectorielle, est une méthode qui permet de convertir un point de données non structuré en un tableau de nombres, tout en conservant la signification originale des données.
  
-Explications:+Articles:
   * introduction aux LLM : [[https://www.linagora.ai/introduction-aux-llm|Démystifier les (LLM) et comment les mettre en œuvre chez vous pour les étudier de plus près]]   * introduction aux LLM : [[https://www.linagora.ai/introduction-aux-llm|Démystifier les (LLM) et comment les mettre en œuvre chez vous pour les étudier de plus près]]
   * [[https://berdachuk.com/ai/how-to-run-llms-locally|How to Run LLMs Locally: A Complete Step-by-Step Guide]] (//2025-05-27//) sur la quatification, format GGUF, Group Size Suffix (S/M/L)   * [[https://berdachuk.com/ai/how-to-run-llms-locally|How to Run LLMs Locally: A Complete Step-by-Step Guide]] (//2025-05-27//) sur la quatification, format GGUF, Group Size Suffix (S/M/L)
 +  * [[https://zonetuto.fr/intelligence-artificielle/jai-lance-un-mini-chatgpt-en-local-sur-mon-cpu-avec-gpt4all/|J’ai lancé un mini ChatGPT en local sur mon CPU avec GPT4All]]
 +  * [[https://zonetuto.fr/intelligence-artificielle/ajouter-un-modele-au-format-ggml-dans-gpt4all-sur-linux-ubuntu/|Ajouter un modèle au format ggml dans GPT4All sur Linux Ubuntu]]
  
 Autres pages: Autres pages:
Ligne 12: Ligne 14:
   * [[/informatique/ai_lm/ai_image|AI Image]]   * [[/informatique/ai_lm/ai_image|AI Image]]
   * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]   * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]
 +  * [[/informatique/ai_lm/ai_vision|AI Vision]]
  
 ===== Glossaire ===== ===== Glossaire =====
Ligne 38: Ligne 41:
 [[https://claude.ai/share/5d0d1604-20cd-4ec9-9f39-c2797197603d|Comment faire pour qu'un appel à un LLM ait un résultat reproductible d'une fois sur l'autre ?]] [[https://claude.ai/share/5d0d1604-20cd-4ec9-9f39-c2797197603d|Comment faire pour qu'un appel à un LLM ait un résultat reproductible d'une fois sur l'autre ?]]
  
 +Hugging Face entreprise française créée en 2016 -> [[https://www.youtube.com/watch?v=8UWCLts47Ms|L'IA open source par Hugging Face - Gen AI Nantes]] 2024-01 par [[https://www.youtube.com/@juliensimonfr|Julien Simon]]
  
 ===== Sur les perfs ===== ===== Sur les perfs =====
Ligne 184: Ligne 188:
 <code bash> <code bash>
 ./bin/llama-server -m devstralQ5_K_M.gguf --port 8012 --jinja --ctx-size 20000 ./bin/llama-server -m devstralQ5_K_M.gguf --port 8012 --jinja --ctx-size 20000
- +./bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000
-~/Code/bronx/AI_Coding/llama.cpp/build/bin/llama-server --port 8012 --chatml -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q8_0.gguf --ctx-size 48000+
 </code> </code>
 +
 +nouveautés hiver 2025-26:
 +  * la répartition automatique entre GPU et CPU, plus besoin de gérer ''--n-gpu-layers''
 +  * [[https://github.com/ggml-org/llama.cpp/pull/16391|host-memory prompt caching]] : <del>j'ai des scripts qui se sont mis à planter à cause de réponse avec ''content'' vide et ''reasoning_content'' archi plein. L'utilisation de l'option ''--cache-ram 0'' semble résoudre ces plantages.</del>
 +=== chat templates ===
  
 Quid des chat formats ? Est-ce lié au modèle ? Quid des chat formats ? Est-ce lié au modèle ?
Ligne 203: Ligne 211:
                                         list of built-in templates:                                         list of built-in templates:
                                         bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml,                                         bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml,
-                                        command-r, deepseek, deepseek2, deepseek3, exaone3, exaone4, falcon3, +                                        command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3, 
-                                        gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, +                                        exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, 
-                                        hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, +                                        hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, 
-                                        llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, +                                        llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, 
-                                        mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, +                                        mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, 
-                                        openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, +                                        mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, 
-                                        smolvlm, vicuna, vicuna-orca, yandex, zephyr+                                        phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, 
 +                                        yandex, zephyr
                                         (env: LLAMA_ARG_CHAT_TEMPLATE)                                         (env: LLAMA_ARG_CHAT_TEMPLATE)
  
 ... ...
 </code> </code>
 +
 +=== models GGUF format ===
  
 Modèles: Modèles:
Ligne 243: Ligne 254:
 deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg] deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg]
  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /
 +</code>
 +
 +Ma dernière installation :
 +<code bash>
 +sudo apt install nvidia-headless-590-open nvidia-utils-590 nvidia-cuda-toolkit nvidia-cuda-dev
 +
 +Package: nvidia-headless-590-open
 +Version: 590.48.01-0ubuntu0.24.04.1
 +APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble-updates/restricted amd64 Packages
 +
 +Package: nvidia-cuda-toolkit
 +Version: 12.0.140~12.0.1-4build4
 +APT-Sources: http://fr.archive.ubuntu.com/ubuntu noble/multiverse amd64 Packages
 +
 +# Je ne comprends pas j'ai pourtant un /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
 +# qui pointe sur /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
 </code> </code>
  
Ligne 292: Ligne 319:
 user 104m56,615s user 104m56,615s
 sys 3m45,431s sys 3m45,431s
 +# Plus récemment
 +real 6m35,663s
 +user 61m37,436s
 +sys 2m37,613s
 </code> </code>
 +
 +Avec CUDA 13.1 llama.cpp plante direct à la 1ère requête, mais sans message dans syslog : ce n'est donc pas le driver mais le logiciel llama.cpp qui ne support pas cette version de CUDA : 
 +<code>
 +/home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/ggml-cuda.cu:97: CUDA error
 +CUDA error: invalid argument
 +  current device: 0, in function ggml_cuda_mul_mat_q at /home/cyrille/Code/bronx/AI_Coding/llama.cpp/ggml/src/ggml-cuda/mmq.cu:179
 +</code>
 +
  
 ==== ollama ==== ==== ollama ====
Ligne 306: Ligne 345:
  
 ==== koboldcpp ==== ==== koboldcpp ====
 +
 +A single self-contained distributable that builds off **llama.cpp** and adds many additional powerful features
  
 https://github.com/LostRuins/koboldcpp https://github.com/LostRuins/koboldcpp
Ligne 329: Ligne 370:
   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]
  
-==== LiteLLM ==== 
- 
-https://github.com/BerriAI/litellm 
- 
-==== Tabby ML ==== 
- 
-Est à la fois le serveur de model et l'[[#tabby|assistant de code]]. 
- 
-https://tabby.tabbyml.com/docs/quick-start/installation/linux/ 
  
-Fourni llama.cpp. 
  
informatique/ai_lm.1768898799.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki