本地部署大语言模型完全指南
高级 20 分钟阅读 Ollama本地部署开源模型
为什么选择本地部署?
- 隐私安全:数据不离开本机
- 免费无限:无 API 费用,无调用限制
- 无需科学上网:完全在本地运行
- 可定制:微调模型适应特定任务
硬件要求
| 模型大小 | 最低内存 | 推荐配置 |
|---|---|---|
| 7B 参数 | 8GB RAM | 16GB RAM |
| 13B 参数 | 16GB RAM | 32GB RAM |
| 70B 参数 | 64GB RAM | GPU 推荐 |
如果有 NVIDIA 显卡(6GB+ 显存),可以大幅加速推理。
使用 Ollama 快速开始
1. 安装 Ollama
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# 或通过 Homebrew(macOS)
brew install ollama
2. 下载并运行模型
# 下载 Qwen2.5(推荐中文场景)
ollama pull qwen2.5:7b
# 启动对话
ollama run qwen2.5:7b
3. 通过 API 调用
Ollama 内置兼容 OpenAI 格式的 API:
curl http://localhost:11434/v1/chat/completions \
-d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}]
}'
推荐模型
| 模型 | 擅长领域 | 参数量 |
|---|---|---|
| Qwen2.5 | 中文对话 | 7B/14B/72B |
| Llama 3 | 英文通用 | 8B/70B |
| CodeLlama | 代码生成 | 7B/34B |
| Mistral | 轻量高效 | 7B |
搭配 WebUI 使用
推荐使用 Open WebUI 获得类似 ChatGPT 的界面体验:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 即可使用。