DeepSeek技术溯源及前沿探索-浙江大学-202503.pdf

这份文档是浙江大学DS系列专题讲座,主题是“DeepSeek技术溯源及前沿探索”,由朱强主讲。内容主要围绕DeepSeek技术展开,并追溯了其技术渊源及对未来发展的探索,涉及以下几个方面:
1. **语言模型基础**:从语言模型的终极目标开始,介绍了One-hot Encoding和Word Embedding等基本概念,解释了如何让计算机理解人类语言,并讨论了如何使用低维词向量表示词语以及向量化表示的优势。
2. **Transformer模型**:详细讲解了Transformer模型的演化,从统计N-gram模型到LSTM/GRU神经网络,最终到Transformer,Transformer作为大模型的技术基座,它的Attention机制、Encoder-Decoder结构是重点。
3. **预训练时代**:介绍了预训练时代,大力出奇迹(“暴力美学”),包括BERT、GPT等模型,以及自监督算法如MLM/NTP/MAE。探讨了Encoder-Decoder结构,强调了根据任务选择不同编码器和解码器的重要性。阐释了Attention机制的原理,以及它在图像任务中的应用。
4. **ChatGPT**:讲述了ChatGPT的出现对整个AI行业的影响,ChatGPT使用了人类反馈的强化学习,强调了数据、模型和算力在大模型中的重要性。
5. **DeepSeek**:详细介绍了DeepSeek技术的全景图,分析了DeepSeek模型在技术上的创新。重点是DeepSeek-V3,分析了其基础结构、训练流程和模型蒸馏。分析了DeepSeek的技术特点,比如混合专家模型、极致的工程优化。也介绍了DeepSeek的价值,比如如何从“生成”到“推理”,是推理能力的一大步。
6. **LLM到Agent**:从LLM到Agent,对Agent技术做了展望,指出,Agent是未来人工智能发展方向。
总而言之,该讲座系统地介绍了DeepSeek模型,并将其置于整个AI技术发展的历史和未来中,为理解和应用DeepSeek技术提供了有价值的参考。
相关报告
-
38.77 MB 57页 DeepSeek的本地化部署与AI通识教育之未来-浙江大学-202503.pdf
-
8.73 MB 56页 DeepSeek之火,可以燎原-浙江大学-202503.pdf
-
4.24 MB 10页 走向数字社会:从Deepseek到群体智慧-浙江大学-202503.pdf
-
13.85 MB 51页 2025DeepSeek技术全景解析——重塑全球AI生态的中国力量-智研咨询-202503.pdf
-
16.9 MB 148页 DeepSeek大模型及其企业应用实践-厦大团队-202503.pdf
-
12.39 MB 56页 品牌出海专题系列研究:复盘海外品牌国际化经验。探索国牌出海路径-银河证券-202503.pdf
-
15.77 MB 96页 从技术突破到场景落地:大模型发展图谱与DeepSeek创新应用-中山大学-202503.pdf
-
3.83 MB 43页 2025年AI驱动的主配变智能监测与预警技术及系统报告.pdf
-
13.08 MB 61页 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例-浙江大学-202503.pdf
-
3.03 MB 37页 DeepSeek政务应用场景与解决方案(最新版)-清华大学-202503.pdf
-
11.88 MB 52页 2025食饮消费观察及创新风向前瞻-飞未-202503.pdf
-
19.59 MB 101页 DeepSeek应用场景中需要关注的十个安全问题和防范措施-北京大学-202503.pdf
-
1.52 MB 24页 让DeepSeek更有趣更有深度的思考研究分析报告-AGI智能时代-202503.pdf
-
19.54 MB 91页 DeepSeek赋能家庭教育-清华大学-202503.pdf