llama.cpp安装（windows & linux）with CUDA 加速

将市面上几乎所有的LLM部署方案都测试了一遍之后（ollama, lm-studio, vllm, huggingface, lmdeploy），发现只有llama.cpp的推理速度符合企业要求。只是安装困难，遂记录于此。

linux

安装nvidia驱动

安装cuda-toolkit

gcc 与 cmake 版本

编译 llama.cpp CUDA加速

windows

安装 vs

注意不是vs-code
安装勾选项：

编译 llama.cpp

自行编译各种报错，遂通过llamacpp-python进行自动化编译。CUDA加速通过环境变量即可。