1. 准备工作
在开始部署前,请确保你的系统满足以下要求:
- 操作系统:Linux(推荐 Ubuntu 20.04+)或 Windows(WSL2 推荐)
- GPU:建议 NVIDIA 显卡,显存 ≥ 16GB(如 A10、3090、4090 等)
- Python 版本 ≥ 3.9
- 已安装 CUDA 和 cuDNN(如使用 GPU)
2. 安装依赖
创建虚拟环境并安装必要依赖:
python -m venv deepseek-env
source deepseek-env/bin/activate # Linux/macOS
# 或 deepseek-env\Scripts\activate # Windows
pip install torch transformers accelerate sentencepiece einops
3. 下载模型
从 Hugging Face 下载 DeepSeek 模型(需登录并同意协议):
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="deepseek-ai/deepseek-coder-6.7b-instruct",
local_dir="./deepseek-model"
)
你也可以使用 git lfs 直接克隆仓库。
4. 运行推理
使用以下代码加载模型并进行推理:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("./deepseek-model", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("./deepseek-model", trust_remote_code=True).cuda()
inputs = tokenizer("写一个快速排序的 Python 函数", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
5. 常见问题
- 显存不足? 可尝试使用量化版本(如 GGUF + llama.cpp)
- 模型加载慢? 确保网络稳定,或提前下载到本地
- 中文乱码? 确认 tokenizer 支持中文,且终端编码为 UTF-8
6. 注意事项
DeepSeek 模型受其开源协议约束,请遵守相关使用条款。本地部署仅限研究与个人用途,商用请获取授权。