Featured image of post DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

DeepSeek-V3 开源!高效混合专家语言模型 | 开源日报 No.563

DeepSeek-V3 是一个高效强大的 671B 参数混合专家 (MoE) 语言模型,采用创新的 DeepSeekMoE 架构和 MLA 注意力机制,以仅 2.788M GPU 小时的成本完成训练,在 14.8 万亿令牌数据上预训练,实现高性能推理和经济训练。

deepseek-ai/DeepSeek-V3

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-DeepSeek-V3

DeepSeek-V3 是一个强大的混合专家(MoE)语言模型,具有 671B 的总参数量,每个令牌激活 37B 参数。

  • 采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现高效推理和经济训练。
  • 引入无辅助损失负载均衡策略,提升模型性能并稳定训练过程。
  • 在 14.8 万亿多样化高质量令牌上进行预训练,并经过监督微调与强化学习阶段。
  • 以仅需 2.788M H800 GPU 小时的成本完成全量训练,相比其他开源模型表现更优。
  • 支持多令牌预测目标,加速推理并提高性能。

DSXiangLi/DecryptPrompt

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

DecryptPrompt 是一个总结 Prompt 和大语言模型(LLM)相关论文的开源项目,提供丰富的数据和模型资源,旨在促进 AIGC 应用的发展。

  • 持续更新的 LLM 资源汇总
  • 开源模型、评测榜单及推理框架
  • 提供多种微调与训练数据集
  • 汇总各领域 AIGC 应用实例
  • 包含详细的 Prompt 教程及经典博客链接

freedmand/semantra

Github Repo Stars License: `MIT` Language: `Unknown`

demo-picture-of-semantra

Semantra 是一个多功能的语义搜索工具。

  • 通过意义而非文本匹配进行查询
  • 支持分析本地计算机上的文本和 PDF 文件
  • 启动本地网页应用程序以交互式查询文档
  • 易于使用、可配置且注重隐私安全
  • 适合记者、研究人员、学生和历史学家等需要深入挖掘信息的用户

gmpetrov/databerry

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

demo-picture-of-databerry

databerry 是一个无代码平台,用于构建自定义的 LLM 代理。

  • 提供简单易用的界面,适合非技术用户
  • 支持快速创建和部署定制化的 LLM 代理
  • 无需编写代码即可实现复杂功能
  • 灵活性高,满足多种应用场景需求

Ice-Hazymoon/openai-scf-proxy

Github Repo Stars License: `NOASSERTION` Language: `Unknown`

cover

openai-scf-proxy 是一个使用腾讯云函数快速搭建 OpenAI 免翻墙代理的项目。

  • 免费且易于搭建,适合初学者
  • 支持多个地区选择,包括香港
  • 不需要编写代码,只需简单配置即可完成部署
  • 可与其他软件结合使用,方便访问 OpenAI 服务
Licensed under CC BY-NC-SA 4.0