Civilization Museum
The Dark Forest
Civilization Museum
The Dark Forest
  • 目录
  • 关于
0%
摘要1. 引言2. 架构2.1 多头潜在注意力:提升推理效率2.1.1 预备知识:标准多头注意力2.1.2 低秩键值联合压缩2.1.3 解耦旋转位置嵌入2.1.4 键值缓存比较2.1.5 矩阵吸收2.2 DeepSeekMoE:低成本训练强大模型2.2.1 基本架构2.2.2 设备受限路由2.2.3 负载均衡的辅助损失2.2.4 Token丢弃策略3. 预训练3.1 实验设置3.1.1 数据构建3.1.2 超参数3.1.3 基础设施3.1.4 长上下文扩展3.2 评估3.2.1 评估基准3.2.2 评估结果3.2.3 训练和推理效率4. 对齐4.1 监督微调4.2 强化学习4.3 评估结果4.4 讨论5. 结论、局限性和未来工作附录B. DeepSeek-V2-Lite:一款配备MLA和DeepSeekMoE的160亿参数模型B.1 模型描述B.2 性能评估C. MLA完整公式D. 注意力机制的消融实验D.1 MHA、GQA和MQA的对比D.2 MLA与MHA的对比E. 关于预训练数据去偏的讨论F. 关于数学和代码的额外评估F.1 数学任务评估F.2 代码任务评估G. 评估格式
Logic
Logic
给时间以生命 给岁月以文明
191篇文章| 位访客
公告
备用网址:vabc.eu.org
 
最新发布
  • 十三、SAC算法
  • 【论文精读】DeepSeek-V2
  • 一、强化学习概述
  • 七、时序差分算法
  • 二、状态价值与贝尔曼公式
  • 三、最优状态价值与贝尔曼最优性方程
  • 分类
    更多
    标签
    更多
    目录
    0%
    摘要1. 引言2. 架构2.1 多头潜在注意力:提升推理效率2.1.1 预备知识:标准多头注意力2.1.2 低秩键值联合压缩2.1.3 解耦旋转位置嵌入2.1.4 键值缓存比较2.1.5 矩阵吸收2.2 DeepSeekMoE:低成本训练强大模型2.2.1 基本架构2.2.2 设备受限路由2.2.3 负载均衡的辅助损失2.2.4 Token丢弃策略3. 预训练3.1 实验设置3.1.1 数据构建3.1.2 超参数3.1.3 基础设施3.1.4 长上下文扩展3.2 评估3.2.1 评估基准3.2.2 评估结果3.2.3 训练和推理效率4. 对齐4.1 监督微调4.2 强化学习4.3 评估结果4.4 讨论5. 结论、局限性和未来工作附录B. DeepSeek-V2-Lite:一款配备MLA和DeepSeekMoE的160亿参数模型B.1 模型描述B.2 性能评估C. MLA完整公式D. 注意力机制的消融实验D.1 MHA、GQA和MQA的对比D.2 MLA与MHA的对比E. 关于预训练数据去偏的讨论F. 关于数学和代码的额外评估F.1 数学任务评估F.2 代码任务评估G. 评估格式
    0%
    2021-2026 Logic.

    Civilization Museum

    Powered by NotionNext 4.9.5.2.