将市面上几乎所有的LLM部署方案都测试了一遍之后(ollama, lm-studio, vllm, huggingface, lmdeploy),发现只有llama.cpp的推理速度符合企业要求。只是安装困难,遂记录于此。
linux
安装nvidia驱动
安装cuda-toolkit
gcc 与 cmake 版本
编译 llama.cpp CUDA加速
windows
安装 vs
注意不是vs-code
安装勾选项:
编译 llama.cpp
自行编译各种报错,遂通过llamacpp-python进行自动化编译。CUDA加速通过环境变量即可。