2025我们该如何看待DeepSeek——what, how, why, and next-湖南大学-202502.pdf

2025我们该如何看待DeepSeek——what, how, why, and next-湖南大学-202502.pdf

该文档是湖南大学陈果教授关于DeepSeek大模型的报告,主要探讨了如何看待DeepSeek,包括其是什么(What),如何使用(How),为何有效(Why)以及未来发展(Next)。

  1. DeepSeek是什么:
  • DeepSeek是继ChatGPT后又一引爆AI领域的大模型,它以文字接龙的方式工作,通过学习大量文本来预测下一个token。
  • OpenAI的o1是推理大模型,强调“思维链”过程,提升了数学逻辑和推理能力。
  • 推理模型(Reasoning LLMs)与普通模型(Regular LLMs)的区别在于推理模型会经过多个思考过程(Thought process)再给出答案。
  • DeepSeek R1相较于其他模型,具有“屠夫”般的价格优势、开源、推理能力强等特点,使得AI技术能够走进千家万户。
  1. 如何使用DeepSeek:
  • DeepSeek可以通过官网、秘塔搜索、360纳米AI搜索等方式使用。
  • 调用DeepSeek服务有普通调用和文件+联网搜索(RAG)两种方式,RAG可以提供更精准的回答。
  • 掌握Prompt、Token、上下文长度等术语的概念有助于更好地使用DeepSeek。
  • 要正确理解DeepSeek的能力,发挥其思维方法,认识到其“不能一步到位”的局限性,并学会利用其他工具进行辅助。
  1. DeepSeek为何有效:
  • Transformer是一种特殊的神经网络,几乎现在所有典型大模型都采用这种神经网络
  • Transformer的整体流程包括token编码(Embedding),计算token之间的关系 (Attention), 理解每个token自己的含义(MLPs),编码还原成token并输出(Unembedding)。
  • LLM通过数据学习文字接龙,数据和参数规模越大,LLM就越聪明。
  • 在多种语言上做预训练后,只要教某一个语言的某一个任务,自动学会其他语言的同样任务。
  • 训练完针对特定领域效果不佳时,需要对模型进行后训练对齐,包括监督式微调(SFT)和强化学习(RL)。
  1. 下一步的关注点:
  • 生态爆发在即,需要关注国产AI芯片、高性能互连、训练和推理框架、模型算法、算力底座以及行业应用等环节。
  • DeepSeek等模型的出现使AI飞入寻常百姓家,要抓住这一机遇,并用阳谋对抗阴谋,用全中国全世界的智慧一起创新。
在线阅读 下载完整报告 | 4.02 MB | 82页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告