2025年DeepSeek完全实用手册V1.0——从技术原理到使用技巧-至顶AI实验室-202502.pdf

摘要 : DeepSeek是杭州深度求索人工智能基础技术研究有限公司的简称,成立于2023年7月,隶属于幻方量化,专注于通用人工智能(AGI)的软硬件协同设计。该公司已研发并开源了十余款模型,其中V3对话模型和R1推理模型最受关注,分别于2024年12月和2025年1月发布,引起了广泛关注。V3模型采用混合专家架构(MoE),支持多任务处理,在代码生成和数学推理等场景中表现优异;R1模型基于强化学习训练,专注于代码生成和解决复杂数学问题,推理能力可通过蒸馏技术迁移至小型模型。 DeepSeek模型之所以受到关注,是因为其性能与OpenAI的o1模型相当,结束了中国AI模型落后于美国的观点。DeepSeek对中文支持更好,且训练和推理成本较低。例如,DeepSeek-V3模型在2048块H800 GPU上训练3.7天,硬件成本约为558万美元,远低于Meta同规格的Llama3.1模型的9240万美元。在模型推理方面,DeepSeekV3的价格约为OpenAI GPT-4的价格的十分之一,而DeepSeekR1的价格更具竞争力。
下载报告 | 16.73 MB | 117页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告
与最强人工智能Ai对话