对话中国工程院院士:DeepSeek,毕竟锋利在那里?

来自版块 问答
933
5

  文 | 新浪科技 周文猛
  1月27日,DeepSeek应用登顶苹果美国地域应用市肆免费App下载排行榜,在美区下载榜上逾越了ChatGPT。同日,苹果中国区应用市肆免费榜表现,DeepSeek成为中国区第一。
  DeepSeek毕竟锋利在那里?
  本日,中国工程院院士、清华大学盘算机系传授郑纬民及多位AI圈人士在与新浪科技沟通中,指出了DeepSeek其乐成出圈的关键地点。
  现在,业界对于DeepSeek的喜好与称赞,重要会合在三个方面。第一,在技能层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模子,分别实现了比肩OpenAI 4o和o1模子的本领。第二,DeepSeek研发的这两款模子本钱更低,仅为OpenAI 4o和o1模子的非常之一左右。第三,DeepSeek把这一两大模子的技能都开源了,这让更多的AI团队,可以或许基于最先辈同时本钱最低的模子,开辟更多的AI原生应用。
  那么,DeepSeek是怎样实现模子本钱的低落的呢?
  郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模子练习本钱降落,起到了关键作用。”他指出,“MLA重要通过改造留意力算子压缩了KV Cache巨细,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模子中FFN 层的改造相共同,实现了一个非常大的希罕MoE 层,这成为DeepSeek练习本钱低最关键的缘故原由。”
  就技能层面而言,KV Cache是一种优化技能,常被用于存储人工智能模子运行时产生的token的键值对(即key- value数值),以进步盘算服从。详细而言,在模子运算过程中,KV cache会在模子运算过程中充当一个内存库的脚色,以存储模子之前处置惩罚过的token键值,通过模子运算盘算出留意力分数,有用控制被存储token的输入输出,通过“以存换算”制止了多数大模子运算每次都是从第一个token开始运算的重复盘算,提拔了算力利用服从。
  别的,据郑纬民透露,DeepSeek还办理了“非常大同时非常希罕的MoE模子”利用的性能困难,而这也成了“DeepSeek练习本钱低最关键的缘故原由”。

  现在,通过MoE混淆专家模子提拔AI大模子的专业认知本领正成为业界公认的有用本领,而且一个大模子的专家模子数目越多,模子就越希罕,服从也越高,但专家模子变多大概导致终极天生的效果不太正确。
  据郑纬民先容,“DeepSeek比力锋利的是练习MoE的本领,成为公开MoE模子练习中第一个能练习乐成这么大MoE的企业。”新浪科技相识到,为包管大规模MoE专家模子的平衡运行,DeepSeek利用了先辈的、不必要辅助丧失函数的、专家加载平衡技能,包管每个token下,少量专家网络参数被真正激活的环境下,差别的专家网络可以或许以更平衡的频率被激活,防止专家网络激活扎堆。
  别的,DeepSeek还充实使用专家网络被希罕激活的计划,限定了每个token被发送往GPU集群节点(node)的数目,这使得GPU之间通讯开销稳固在较低的水位。
                                                                                                                                                                                                                                                                                                    
                海量资讯、精准解读,尽在新浪财经APP
            
                                                                        责任编辑:常福强

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

使用道具 举报

全部评论 5

真的有被惊艳到了呀哈哈哈哈,真的黑白常高级呀[微笑][微笑]
2025-1-28 14:32:54
每个汉字和英笔墨母都熟悉,它们一拥抱我就含糊了……[允悲]
2025-1-28 14:33:15
如今的这些东西真的黑白常的好,也非常的高级。
2025-1-28 14:33:36
看着郑纬民的书长大的[允悲][允悲][允悲]
2025-1-28 14:33:57
无私奉献
2025-1-28 14:34:18

热文

所属版块

您需要登录后才可以回帖 立即登录
说说你的想法......
0
5
0
返回顶部