新闻动态

一文搞懂 DeepSeek - 强化学习和蒸馏

一文搞懂 DeepSeek - 强化学习和蒸馏

DeepSeek-R1 在其论文(https://arxiv.org/abs/2501.12948)引言部分指出,R1 模型通过融合冷启动数据、多阶段训练流程以及纯粹的强化学习策略,显著增强了大型语言模型的推理能力。这使得 R1 模型在性能上与 OpenAI 的 o1 系列模型持平,并且通过蒸馏技术,成功地将这种推理能力传递给了更小型化的模型。

阅读更多
DeepSeek从入门到精通(2025)教程

DeepSeek从入门到精通(2025)教程

DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。

阅读更多
神经网络算法

神经网络算法

神经网络算法是一种受生物神经系统启发而构建的机器学习模型,广泛应用于模式识别、分类、回归等任务。其核心思想是利用大量的简单计算单元(神经元)相互连接形成网络,通过数据学习来实现复杂的非线性映射关系。

阅读更多

联系我们