DeepSeek技术溯源及前沿探索-浙江大学-202503.pdf

DeepSeek技术溯源及前沿探索-浙江大学-202503.pdf
这份文档是浙江大学DS系列专题讲座,主题是“DeepSeek技术溯源及前沿探索”,由朱强主讲。内容主要围绕DeepSeek技术展开,并追溯了其技术渊源及对未来发展的探索,涉及以下几个方面: 1. **语言模型基础**:从语言模型的终极目标开始,介绍了One-hot Encoding和Word Embedding等基本概念,解释了如何让计算机理解人类语言,并讨论了如何使用低维词向量表示词语以及向量化表示的优势。 2. **Transformer模型**:详细讲解了Transformer模型的演化,从统计N-gram模型到LSTM/GRU神经网络,最终到Transformer,Transformer作为大模型的技术基座,它的Attention机制、Encoder-Decoder结构是重点。 3. **预训练时代**:介绍了预训练时代,大力出奇迹(“暴力美学”),包括BERT、GPT等模型,以及自监督算法如MLM/NTP/MAE。探讨了Encoder-Decoder结构,强调了根据任务选择不同编码器和解码器的重要性。阐释了Attention机制的原理,以及它在图像任务中的应用。 4. **ChatGPT**:讲述了ChatGPT的出现对整个AI行业的影响,ChatGPT使用了人类反馈的强化学习,强调了数据、模型和算力在大模型中的重要性。 5. **DeepSeek**:详细介绍了DeepSeek技术的全景图,分析了DeepSeek模型在技术上的创新。重点是DeepSeek-V3,分析了其基础结构、训练流程和模型蒸馏。分析了DeepSeek的技术特点,比如混合专家模型、极致的工程优化。也介绍了DeepSeek的价值,比如如何从“生成”到“推理”,是推理能力的一大步。 6. **LLM到Agent**:从LLM到Agent,对Agent技术做了展望,指出,Agent是未来人工智能发展方向。 总而言之,该讲座系统地介绍了DeepSeek模型,并将其置于整个AI技术发展的历史和未来中,为理解和应用DeepSeek技术提供了有价值的参考。
在线阅读 下载完整报告 | 4.37 MB | 50页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告