为什么选择本地部署？

隐私安全：数据不离开本机
免费无限：无 API 费用，无调用限制
无需科学上网：完全在本地运行
可定制：微调模型适应特定任务

硬件要求

模型大小	最低内存	推荐配置
7B 参数	8GB RAM	16GB RAM
13B 参数	16GB RAM	32GB RAM
70B 参数	64GB RAM	GPU 推荐

如果有 NVIDIA 显卡（6GB+ 显存），可以大幅加速推理。

使用 Ollama 快速开始

1. 安装 Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# 或通过 Homebrew（macOS）
brew install ollama

2. 下载并运行模型

# 下载 Qwen2.5（推荐中文场景）
ollama pull qwen2.5:7b

# 启动对话
ollama run qwen2.5:7b

3. 通过 API 调用

Ollama 内置兼容 OpenAI 格式的 API：

curl http://localhost:11434/v1/chat/completions \
  -d '{
    "model": "qwen2.5:7b",
    "messages": [{"role": "user", "content": "你好"}]
  }'

搭配 WebUI 使用

推荐使用 Open WebUI 获得类似 ChatGPT 的界面体验：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可使用。

模型	擅长领域	参数量
Qwen2.5	中文对话	7B/14B/72B
Llama 3	英文通用	8B/70B
CodeLlama	代码生成	7B/34B
Mistral	轻量高效	7B

本地部署大语言模型完全指南

为什么选择本地部署？

硬件要求

使用 Ollama 快速开始

1. 安装 Ollama

2. 下载并运行模型

3. 通过 API 调用

推荐模型

搭配 WebUI 使用