当残差开始“失控”:DeepSeek mHC 如何给超连接戴上数学枷锁DeepSeek mHC 是一个基于 Transformer 架构的 LLM,它的超连接层采用了残差连接,并在残差分支上添加了一个数学模型,用于对超连接的权重进行约束。loaf2026/1/2大约 11 分钟随笔LLMDeepSeekAI
DeepSeek开源新模型,让AI睁眼看世界10月20日,DeepSeek开源了它的新模型DeepSeek OCR,这应该是DeepSeek在多模态过程中的一个附带成果。loaf2025/10/21大约 7 分钟技术大模型AIDeepSeek
与时俱进学AI之二:眼高手不低,用DeepSeek改变你自己 “ 本篇主要记录自己使用DeepSeek的使用实例,总结出的一些技巧和方法,让AI可以成为从个人娱乐到具体工作的好助理。” loaf2025/2/22大约 25 分钟随笔AIDeepSeek
与时俱进学AI之一:学霸DeepSeek是怎么练成的 这个春节,DeepSeek可是火出了圈,文能吟诗作对,理能编程解奥数,简直就是学霸本霸,完全不输朋友圈里那些“别人家的孩子”。作为一个中国人,看到DeepSeek让老外们惊掉下巴,心里那叫一个爽!自家孩子终于也成了学霸,DeepSeek可真是给我们长脸了! loaf2025/2/15大约 50 分钟随笔AI大模型DeepSeek