2025我们该如何看待DeepSeek——what, how, why, and next-湖南大学-202502.pdf

2025我们该如何看待DeepSeek——what, how, why, and next-湖南大学-202502.pdf
该文档是湖南大学陈果教授关于DeepSeek大模型的报告,主要探讨了如何看待DeepSeek,包括其是什么(What),如何使用(How),为何有效(Why)以及未来发展(Next)。 1. **DeepSeek是什么:** * DeepSeek是继ChatGPT后又一引爆AI领域的大模型,它以文字接龙的方式工作,通过学习大量文本来预测下一个token。 * OpenAI的o1是推理大模型,强调“思维链”过程,提升了数学逻辑和推理能力。 * 推理模型(Reasoning LLMs)与普通模型(Regular LLMs)的区别在于推理模型会经过多个思考过程(Thought process)再给出答案。 * DeepSeek R1相较于其他模型,具有“屠夫”般的价格优势、开源、推理能力强等特点,使得AI技术能够走进千家万户。 2. **如何使用DeepSeek:** * DeepSeek可以通过官网、秘塔搜索、360纳米AI搜索等方式使用。 * 调用DeepSeek服务有普通调用和文件+联网搜索(RAG)两种方式,RAG可以提供更精准的回答。 * 掌握Prompt、Token、上下文长度等术语的概念有助于更好地使用DeepSeek。 * 要正确理解DeepSeek的能力,发挥其思维方法,认识到其“不能一步到位”的局限性,并学会利用其他工具进行辅助。 3. **DeepSeek为何有效:** * Transformer是一种特殊的神经网络,几乎现在所有典型大模型都采用这种神经网络 * Transformer的整体流程包括token编码(Embedding),计算token之间的关系 (Attention), 理解每个token自己的含义(MLPs),编码还原成token并输出(Unembedding)。 * LLM通过数据学习文字接龙,数据和参数规模越大,LLM就越聪明。 * 在多种语言上做预训练后,只要教某一个语言的某一个任务,自动学会其他语言的同样任务。 * 训练完针对特定领域效果不佳时,需要对模型进行后训练对齐,包括监督式微调(SFT)和强化学习(RL)。 4. **下一步的关注点:** * 生态爆发在即,需要关注国产AI芯片、高性能互连、训练和推理框架、模型算法、算力底座以及行业应用等环节。 * DeepSeek等模型的出现使AI飞入寻常百姓家,要抓住这一机遇,并用阳谋对抗阴谋,用全中国全世界的智慧一起创新。
在线阅读 下载完整报告 | 4.02 MB | 82页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告