DeepSeek 是由深度求索(DeepSeek)推出的一系列开源大语言模型(LLM),覆盖代码生成、多模态理解、混合专家架构等多个方向。以下是目前主流的 DeepSeek 模型版本介绍:
DeepSeek-VL 是一个通用的多模态大模型,支持图像与文本的联合理解与生成,适用于图文问答、内容描述、视觉推理等任务。
专为代码理解和生成设计的大模型,支持多种编程语言,在 HumanEval 等代码评测基准上表现优异,适合开发者使用。
采用 Mixture of Experts(MoE)架构的高效大模型,在保持高性能的同时显著降低推理成本,适用于高并发部署场景。
DeepSeek 推出的首个闭源推理模型,具备强大的逻辑推理、数学计算和复杂任务处理能力,适用于企业级应用。
包括基础预训练模型(Base)和对话优化模型(Chat),涵盖 7B、33B 等不同参数规模,支持中英文双语,广泛用于研究与应用开发。