Civilization Museum
The Dark Forest
目录
0%
摘要
1. 引言
2. 架构
2.1 多头潜在注意力:提升推理效率
2.1.1 预备知识:标准多头注意力
2.1.2 低秩键值联合压缩
2.1.3 解耦旋转位置嵌入
2.1.4 键值缓存比较
2.1.5 矩阵吸收
2.2 DeepSeekMoE:低成本训练强大模型
2.2.1 基本架构
2.2.2 设备受限路由
2.2.3 负载均衡的辅助损失
2.2.4 Token丢弃策略
3. 预训练
3.1 实验设置
3.1.1 数据构建
3.1.2 超参数
3.1.3 基础设施
3.1.4 长上下文扩展
3.2 评估
3.2.1 评估基准
3.2.2 评估结果
3.2.3 训练和推理效率
4. 对齐
4.1 监督微调
4.2 强化学习
4.3 评估结果
4.4 讨论
5. 结论、局限性和未来工作
附录
B. DeepSeek-V2-Lite:一款配备MLA和DeepSeekMoE的160亿参数模型
B.1 模型描述
B.2 性能评估
C. MLA完整公式
D. 注意力机制的消融实验
D.1 MHA、GQA和MQA的对比
D.2 MLA与MHA的对比
E. 关于预训练数据去偏的讨论
F. 关于数学和代码的额外评估
F.1 数学任务评估
F.2 代码任务评估
G. 评估格式
0%