1. llama.cpp官网官网里面提供了安装指南和下载连接首先看一下安装的前置条件选择对应的系统查看安装指南。2. 下载llama.cpp的预编译库下载地址llama.cpp下载地址根据电脑的系统和显卡驱动类型分别下载下面两个文件如果是windows系统且显卡的cuda支持大于12.4则可以直接下载下面的版本。这两个文件分别是llama.cpp依赖的cuda文件和llama.cpp本身下载完成后将这个两个压缩包解压到固定的文件夹注意要解压到相同文件夹下混到一起。最后将这个文件夹路径添加到环境变量目录下这样你就可以命令行任意路径下使用llama-server.exe和cudart-llama-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/cudart-llama-bin-win-cuda-12.4-x64.zipllama-b9843-bin-win-cuda-12.4-x64.ziphttps://github.com/ggml-org/llama.cpp/releases/download/b9843/llama-b9843-bin-win-cuda-12.4-x64.zip3. 使用llama.cpp进行模型加载和使用模型文件很大可以复制链接使用迅雷下载。在modelscope下载对应GGUF模型以gemma4-26B-A4B为例: gemma4 GGUF下载连接根据你的显卡显存下载对应的版本24G显存如4090可以下载gemma-4-26B-A4B-it-UD-IQ4_XS.gguf和mmproj-F16.gguf前面是模型文件后面是多模态投影文件不想使用多模态能力可以不下载这个投影文件。下载完成后就可以使用命令行进行加载了打开cmd输入以下命令记得更改模型路径。如果显存不够考虑调整缩小--n-gpu-layers和添加一行参数这行参数可以自己调整测试就是把多少个模型专家放到CPU上加载调整顺序建议10 / 16 / 32 / 64 / 128 / 256这样可以缓解OOM然CPU和GPU一起均衡负载这样推理速度能更快当然这个仅限于MOE模型dense模型老老实实采用更低的量化模型和更短的模型上下文更激进的KV缓存量化来缓解--n-cpu-moe 32命令行如下.\llama-server.exe --model D:\models\gemma-4-26B-A4B-it-UD-IQ4_xS.gguf --mmproj D:\models\mmproj-gemma-4-26B-A4B-it-f16.gguf --ctx-size 131072 --batch-size 1024 --ubatch-size 512 --n-gpu-layers 99 --threads 10 --cache-type-k q4_0 --cache-type-v q4_0 --flash-attn on --mlock --temp 1.0 --top-p 0.95 --top-k 64 --min-p 0.05 --reasoning off --port 8080 --host 0.0.0.0 如果要添加密钥的话可以添加这个参数加粗的为密钥名--api-keysk-123456关于这些参数的详细作用和信息参考这篇博文gemma4在windows系统下的使用此外还有一些参数这里面没有介绍清楚具体可以在cmd命令行输入llama-cli --help来查看。关于mtp模型如何加载的问题再加上两条命令行就可以了1. 这个--model-draft命令根据不同的llama.cpp的版本会有变化具体输入上面的命令行查看你的版本对应的命令是什么后面是直接写模型地址比如在C盘的AI文件夹--model-draft C:/AI/gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf--model-draft gemma-4-12b-it-qat-assistant-MTP-Q8_0-GGUF.gguf2. 再加上一个控制草稿模型一次预测多少个token这里也是同样要注意llama.cpp的版本比如我的版本就是: --spec-draft-n-max 2--draft-max 24. 如何使用Web 端 浏览器访问 http://127.0.0.1:8080输入 API Key sk-123456。第三方客户端如 Cherry StudiochatboxLMstudio类型选择OpenAI接口地址http://localhost:8080/v1API Keysk-123456 注意如果之前命令行没设密钥使用cherry studio的模型的话密钥可以随便输如果不输反而会报错