本地部署大语言模型完全指南

高级 20 分钟阅读 Ollama本地部署开源模型

为什么选择本地部署?

  • 隐私安全:数据不离开本机
  • 免费无限:无 API 费用,无调用限制
  • 无需科学上网:完全在本地运行
  • 可定制:微调模型适应特定任务

硬件要求

模型大小最低内存推荐配置
7B 参数8GB RAM16GB RAM
13B 参数16GB RAM32GB RAM
70B 参数64GB RAMGPU 推荐

如果有 NVIDIA 显卡(6GB+ 显存),可以大幅加速推理。

使用 Ollama 快速开始

1. 安装 Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# 或通过 Homebrew(macOS)
brew install ollama

2. 下载并运行模型

# 下载 Qwen2.5(推荐中文场景)
ollama pull qwen2.5:7b

# 启动对话
ollama run qwen2.5:7b

3. 通过 API 调用

Ollama 内置兼容 OpenAI 格式的 API:

curl http://localhost:11434/v1/chat/completions \
  -d '{
    "model": "qwen2.5:7b",
    "messages": [{"role": "user", "content": "你好"}]
  }'

推荐模型

模型擅长领域参数量
Qwen2.5中文对话7B/14B/72B
Llama 3英文通用8B/70B
CodeLlama代码生成7B/34B
Mistral轻量高效7B

搭配 WebUI 使用

推荐使用 Open WebUI 获得类似 ChatGPT 的界面体验:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可使用。