Outils pour utilisateurs

Outils du site


informatique:ai_lm

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm [01/05/2026 10:24] – [Compilation pour CPU (SYCL)] cyrilleinformatique:ai_lm [03/05/2026 11:02] (Version actuelle) – [NanoLLM] cyrille
Ligne 51: Ligne 51:
   * https://www.glukhov.org/fr/post/2025/05/ollama-cpu-cores-usage/   * https://www.glukhov.org/fr/post/2025/05/ollama-cpu-cores-usage/
  
-==== Estimations ====+  * [[/informatique/ai_lm/gpu_bench|GPU Benchmarks]]
  
-**Devstral avec llama.cpp sur RTX 3060 12 Go.** 
- 
-by ChatGPT : 
- 
-| Modèle            | Contexte (seq_len) | Batch_size recommandé | Remarques                                | 
-| ----------------- | ------------------ | --------------------- | ---------------------------------------- | 
-| Devstral Small 7B | 1024               | 4                     | Très sûr, VRAM ample                     | 
-| Devstral Small 7B | 2048               | 2‑3                   | Bon compromis vitesse/VRAM               | 
-| Devstral Small 7B | 4096               | 1‑2                   | VRAM presque saturée                     | 
-| Devstral 13B      | 1024               | 2                     | VRAM limitée                             | 
-| Devstral 13B      | 2048               | 1‑2                   | Optimal, attention VRAM                  | 
-| Devstral 13B      | 4096               | 1                     | VRAM saturée, offload CPU conseillé      | 
-| Devstral 13B      | 8192               | 1                     | Possible mais contexte long → risque OOM | 
- 
-by LeChat: 
- 
-| contexte (tokens) | modèle (paramètres) | VRAM estimée (Go) | Batch size optimal | Latence estimée (tok/s) | Notes | 
-| 512 | 7B | ~5.5 | 8 | 15-25 | Idéal pour des tâches courtes et rapides. | 
-| 1024 | 7B | ~6.0 | 4 | 10-20 | Bon compromis pour des prompts moyens. | 
-| 2048 | 7B | ~7.0 | 2 | 5-15 | Nécessite une gestion fine de la VRAM. | 
-| 4096 | 7B | ~8.5 | 1 | 3-10 | Proche de la limite VRAM, risque de ralentissement. | 
-| 512 | 13B | ~9.0 | 4 | 8-15 | Modèle plus gros, latence accrue. | 
-| 1024 | 13B | ~10.0 | 2 | 4-10 | VRAM presque saturée, batch_size réduit. | 
-| 2048 | 13B | ~11.5 | 1 | 2-8 | Risque élevé de dépassement VRAM, latence importante. | 
  
 ==== Online services ==== ==== Online services ====
Ligne 475: Ligne 451:
   * https://dusty-nv.github.io/NanoLLM/   * https://dusty-nv.github.io/NanoLLM/
   * https://www.jetson-ai-lab.com/tutorial_nano-llm.html   * https://www.jetson-ai-lab.com/tutorial_nano-llm.html
- 
  
 Todo Todo
   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]   * [[https://towardsdatascience.com/how-to-build-an-openai-compatible-api-87c8edea2f06/|How to build an OpenAI-compatible API]]
  
 +==== ZML ====
 +
 +https://github.com/zml/zml/
  
  
informatique/ai_lm.1777623849.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki