DeepSeek-671B 是由深度求索(DeepSeek)推出的大规模语言模型,拥有约 6710 亿参数。由于其庞大的参数量,运行该模型对硬件资源,尤其是 GPU 显存提出了极高要求。
大语言模型的显存占用主要由以下几部分构成:
以仅加载模型权重进行推理为例,估算如下:
注意:实际推理还需额外显存用于 KV Cache 和中间激活,通常需在上述基础上增加 20%~50%。
目前单卡无法承载 DeepSeek-671B 模型,必须采用模型并行技术(如 Tensor Parallelism 或 Pipeline Parallelism),将模型拆分到多张高端 GPU(如 A100 80GB 或 H100)上运行。
例如,在 INT4 量化下,若每卡提供 80GB 显存,则至少需要:
335.5 GB ÷ 80 GB ≈ 5 张 GPU(未计 KV Cache 和系统开销,实际可能需 8 张以上)。
DeepSeek-671B 是超大规模模型,即便经过量化压缩,仍需数百 GB 显存。普通用户难以本地部署,建议通过云服务或 API 方式使用。开发者在规划硬件资源时,应充分考虑并行策略与通信开销。