Outils pour utilisateurs

Outils du site


informatique:ai_lm:gpu_bench

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
informatique:ai_lm:gpu_bench [09/06/2026 20:01] cyrilleinformatique:ai_lm:gpu_bench [25/06/2026 18:18] (Version actuelle) – [Nemotron-Cascade-2-30B-A3B] cyrille
Ligne 251: Ligne 251:
 ==== Avec vrai PCIe ✅ ==== ==== Avec vrai PCIe ✅ ====
  
-Environnement et compilation sensible pour llama.cpp :+Sur une vrai tour avec PCIe x16 et Intel(R) Core(TM) Ultra 7 270K Plus. 
 + 
 +**Environnement et compilation sensible** pour llama.cpp :
   * https://github.com/ggml-org/llama.cpp/issues/23546#issuecomment-4662239477   * https://github.com/ggml-org/llama.cpp/issues/23546#issuecomment-4662239477
  
  
-=== Qwen2.5-coder-7b-instruct-q5_k_m ===+^ Modèle ^ params ^ Offload GPU ^ Prompt (t/s) ^ Eval (t/s) ^ Total (ms) ^ Tokens générés ^ Graphs reused ^ 
 +| Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL | 24B | 17/41 | 427.81 – 545.85 | 0.80 – 3.19 | 123,500 – 568,458 | 9,629 – 47,241 | 0 | 
 +| Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL | 30B | 49/49 | 590.38 – 591.76 | 28.64 – 30.06 | 4,715 – 12,818 | 19,919 – 22,804 | 294 – 530 | 
 +| Qwen3-Coder-Next-UD-Q4_K_XL | 80B | 49/49 | 29.00 – 400.09 | 18.68 – 32.44 | 25,057 – 87,659 | 719 – 43,214 | 10 – 1,024 | 
 +| DeepSeek-R1-Distill-Qwen-32B-Q4_K_M | 32B | 24/65 | 88.97 – 428.81 | 2.14 – 2.32 | 116,052 – 189,566 | 925 – 3,397 | 228 – 419 | 
 +| DeepSeek-R1-Distill-Qwen-14B-Q8_0 | 14B | 24/49 | 225.55 – 775.01 | 4.10 – 4.13 | 81,383 – 147,476 | 1,307 – 3,858 | 313 – 582 | 
 + 
 +=== gpt-oss-20b-UD-Q4_K_XL ===
  
 <code> <code>
-$ ./llama.cpp/build/bin/llama-bench -m ~/Data/AI_Models/Qwen2.5-coder-7b-instruct-q5_k_m.gguf -p 0 -n 128,256,512 +$ ./llama.cpp/build/bin/llama-bench -m /data/models/gpt-oss-20b-UD-Q4_K_XL.gguf -p 0 -n 128,256,512 
-ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no +ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15849 MiB): 
-ggml_cuda_initGGML_CUDA_FORCE_CUBLASno +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
-ggml_cuda_init: found 1 CUDA devices: +| model                           size |     params | backend | ngl |    test |            t/s | 
-  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes+| ------------------------- | ---------: | ---------: | ------- | --: | ------: | -------------:
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB |    20.91 B | CUDA    |  -1 |   tg128 |  155.79 ± 0.21 | 
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB |    20.91 B | CUDA    |  -1 |   tg256 |  155.81 ± 0.03 | 
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB |    20.91 B | CUDA    |  -1 |   tg512 |  155.15 ± 0.01 | 
 + 
 +build: e25a32e98 (9584) 
 + 
 +$ ./llama.cpp/build/bin/llama-bench -m /data/models/gpt-oss-20b-UD-Q4_K_XL.gguf -p 1024 -n 0 -b 128,256,512 
 +ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15849 MiB): 
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model                           size |  params | backend | ngl | n_batch |    test |             t/s | 
 +| ------------------------- | ---------: | ------: | ------- | --: | ------: | ------: | --------------:
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB | 20.91 B | CUDA    |  -1 |     128 |  pp1024 | 3308.23 ± 19.28 | 
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB | 20.91 B | CUDA    |  -1 |     256 |  pp1024 | 4792.27 ± 39.25 | 
 +| gpt-oss 20B Q4_K - Medium |  11.04 GiB | 20.91 B | CUDA    |  -1 |     512 |  pp1024 | 6048.13 ± 32.16 | 
 + 
 +build: e25a32e98 (9584) 
 +</code> 
 + 
 +=== Qwen2.5-coder-7b-instruct-q8_0 === 
 + 
 +<code> 
 +$ ./llama.cpp/build/bin/llama-bench -m ~/models/Qwen2.5-coder-7b-instruct-q8_0.gguf -p 0 -n 128,256,512 
 +ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15849 MiB): 
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model            |       size |     params | backend   | ngl |        test |               t/s | 
 +| ---------------- | ---------: | ---------: | --------- | --: | ----------: | ----------------:
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |       tg128 |      54.23 ± 0.02 | 
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |       tg256 |      54.23 ± 0.00 | 
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |       tg512 |      54.12 ± 0.00 | 
 + 
 +build: e25a32e98 (9584) 
 + 
 +$ ./llama.cpp/build/bin/llama-bench -m ~/models/Qwen2.5-coder-7b-instruct-q8_0.gguf -p 1024 -n 0 -b 128,256,512 
 +ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15849 MiB): 
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model            |       size |     params | backend   | ngl | n_batch |      test |              t/s | 
 +| ---------------- | ---------: | ---------: | --------- | --: | ------: | --------: | ---------------:
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |     128 |    pp1024 |   3746.31 ± 4.80 | 
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |     256 |    pp1024 |   4174.39 ± 0.45 | 
 +| qwen2 7B Q8_0    |   7.54 GiB |     7.62 B | CUDA      |  -1 |     512 |    pp1024 |   4354.18 ± 5.39 | 
 + 
 +build: e25a32e98 (9584) 
 +</code> 
 + 
 +=== Qwen2.5-coder-14b-instruct-q5_k_m === 
 + 
 +<code> 
 +$ ./llama.cpp/build/bin/llama-bench -m ~/models/Qwen2.5-coder-14b-instruct-q5_k_m.gguf -p 0 -n 128,256,512 
 +ggml_cuda_init: found 1 CUDA devices (Total VRAM15849 MiB): 
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model                         size |   params | backend | ngl |     test |             t/s | 
 +| ----------------------- | ---------: | -------: | ------- | --: | -------: | --------------:
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |    tg128 |    39.54 ± 0.02 | 
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |    tg256 |    39.53 ± 0.01 | 
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |    tg512 |    39.38 ± 0.01 | 
 + 
 +builde25a32e98 (9584) 
 + 
 +  Device 0NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model                         size |   params | backend | ngl | n_batch |    test |             t/s | 
 +| ----------------------- | ---------: | -------: | ------- | --: | ------: | ------: | --------------:
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |     128 |  pp1024 |  1835.16 ± 1.69 | 
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |     256 |  pp1024 |  1967.12 ± 1.01 | 
 +| qwen2 14B Q5_K - Medium |   9.78 GiB |  14.77 B | CUDA    |  -1 |     512 |  pp1024 |  1995.02 ± 0.84 | 
 + 
 +build: e25a32e98 (9584) 
 +</code> 
 + 
 +=== gemma-4-26B-A4B-it-qat-UD-Q4_K_XL === 
 + 
 +<code> 
 +prompt eval time =     318.17 ms /   165 tokens (    1.93 ms per token,   518.59 tokens per second) 
 +       eval time =    1338.88 ms /    86 tokens (   15.57 ms per token,    64.23 tokens per second) 
 +      total time =    1657.05 ms /   251 tokens 
 +   graphs reused =       1916 
 +stop processing: n_tokens = 20931, truncated = 0 
 + 
 +prompt eval time =    3143.73 ms /  4850 tokens (    0.65 ms per token,  1542.75 tokens per second) 
 +       eval time =   31502.45 ms /  1854 tokens (   16.99 ms per token,    58.85 tokens per second) 
 +      total time =   34646.18 ms /  6704 tokens 
 +   graphs reused =       3762 
 +stop processing: n_tokens = 27604, truncated = 0 
 +</code> 
 + 
 +=== Qwen3-Coder-30B-A3B-Instruct-Q4_K_M === 
 + 
 +J'ai essayé des ''-ngl'' petit mais ça passe pas. 
 + 
 +<code> 
 +$ ./llama.cpp/build/bin/llama-bench -m ~/models/Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf -p 0 -n 128,256,512 
 + 
 +llama_bench: error: failed to load model ~/models/Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf 
 +</code> 
 + 
 +=== Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL === 
 + 
 +J'ai essayé des ''-ngl'' petit mais ça passe pas. 
 + 
 +<code> 
 +$ ./llama.cpp/build/bin/llama-bench -m /data/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf -p 0 -n 128,256,512 
 + 
 +ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15849 MiB)
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB
 | model                          |       size |     params | backend    | ngl |            test |                  t/s | | model                          |       size |     params | backend    | ngl |            test |                  t/s |
 | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
-| qwen2 7B Q5_K Medium           5.07 GiB |     7.62 B | CUDA        99 |           tg128 |         73.54 ± 0.01 | +llama_bench: error: failed to load model '/data/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf' 
-| qwen2 7B Q5_K Medium           5.07 GiB |     7.62 B | CUDA        99 |           tg256 |         73.32 ± 0.40 | +</code>
-| qwen2 7B Q5_K - Medium           5.07 GiB |     7.62 B | CUDA        99 |           tg512 |         71.80 ± 0.61 |+
  
-build: 3f3a4fb9c (7130)+=== Nemotron-Cascade-2-30B-A3B === 
 + 
 +J'ai essayé des ''-ngl'' petit mais ça passe pas. 
 + 
 +<code> 
 +$ ./llama.cpp/build/bin/llama-bench -m /data/models/Nemotron-Cascade-2-30B-A3B-Q4_K_M.gguf -p 0 -n 128,256,512 
 +ggml_cuda_initfound 1 CUDA devices (Total VRAM: 15849 MiB)
 +  Device 0: NVIDIA GeForce RTX 5060 Ti, compute capability 12.0, VMM: yes, VRAM: 15849 MiB 
 +| model                          |       size |     params | backend    | ngl |            test |                  t/s | 
 +| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------:
 +llama_bench: error: failed to load model '/data/models/Nemotron-Cascade-2-30B-A3B-Q4_K_M.gguf'
 </code> </code>
  
-=== Stabilité Avec eGPU 😩 ===+==== INstabilité avec eGPU 😩 ====
  
 Reset nvidia et CUDA: Reset nvidia et CUDA:
informatique/ai_lm/gpu_bench.1781028097.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki