DeepSeek模型优势:算力、成本角度解读-浙江大学-202502.pdf

DeepSeek模型优势:算力、成本角度解读-浙江大学-202502.pdf

这份文档是关于DeepSeek模型优势,算力和成本角度的解读。主要内容如下:

1. 算力基础概念:

  • 算力是对信息数据进行计算,实现目标结果的能力。
  • 算力发展经历了从大脑、草绳石子、算盘算筹到计算机的发展历程。
  • 计算机算力发展:从大型机时代、PC时代、云计算时代到人工智能时代。
  • 人工智能大模型算力估计: 数据量(D) > 15 *模型参数量(N);通过公式估算万亿模型需要消耗的算力。

2. 人工智能计算平台成本估计:

  • 比较了华为910B和英伟达H800的算力、显存、运力等指标和成本。
  • 对万亿大模型预训练系统成本进行估计,说明了训练所需的计算量和时间。

3. 大模型指导法则 Scaling Law:

  • 算力、数据集、模型参数量越大,模型效果越好。

4. OpenAI商业模式(以及与国内人工智能的对比):

  • OpenAI的商业模式:华尔街融资、购买最新GPU、用最新GPU训练性能领先的大模型、用训练的GPU给客户提供高质量模型服务。
  • 分析了国内人工智能商业模式与OpenAI的异同,以及国内人工智能的可行性分析。

5. 美国限制中国AI发展的策略:

  • 指出美国通过限制GPU等手段限制中国AI发展。

6. DeepSeek的应对和未来展望:

  • 阐述了算力卡脖子的时代背景,以及DeepSeek等国内大模型在“上甘岭”时刻面临的挑战。
  • 通过技术创新(如DeepSeekMoE、MLA)和系统优化(自研轻量级框架)来应对算力限制,降低成本。
  • 展示了DeepSeek V3的单次极低预训练成本和发展历程。
  • 对DeepSeek的未来进行展望,包括模型性能、成本、算力等方面。重点突出通过“战术穿插”+“火力覆盖”,以及突破工艺卡脖子,最终实现人工智能的赶超。
下载完整报告 | 18.56 MB | 24页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告