分享 GitHub 上一份教程《深入挖掘 Llama 3 的从零实现》。
将帮助大家更轻松地理解和掌握 Llama 3 模型的实现原理以及详细的推理流程。
GitHub: https://github.com/therealoliver/Deepdive-llama3-from-scratch
具有如下优点:
- 清晰的目录结构,便于大家循序渐进地理解代码;
- 大量详细的代码注释,理解每一段代码的作用,初学者也能轻松上手;
- 完整注解了每一步计算中矩阵维度的变化,更容易的理解整个流程;
- 丰富的原理类说明,大量的细节推导,掌握模型的设计思想。
- 有 KV-Cache 详细的推导、核心思想等内容,深入了解 KV-Cache 每个细节。
- 提供了中英双语的代码文件,原生的中文翻译避免机翻的词不达意。