Editing DeepSeek R1 (section)

== DeepSeek R1 概述 ==
<nowiki>**</nowiki>背景介绍：**DeepSeek R1 是 2025 年初推出的开源大型语言模型，由中国 AI 初创团队 DeepSeek 开发 (DeepSeek-R1 模型现已在 AWS 上可用 | 亚马逊AWS官方博客)。它属于“推理大模型”（Reasoning LLM）的第一代成果，拥有 '''6710 亿参数'''的惊人规模，采用稀疏 Mixture-of-Experts 架构，每个 token 仅激活约 370 亿参数以降低计算开销 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。得益于此架构优化，DeepSeek R1 支持 '''超长上下文'''（上下文长度最高可达 128K tokens）来进行复杂的链式思考 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。官方声称该模型在数学、编程和复杂逻辑推理等任务上表现出与 OpenAI 顶尖模型比肩的实力，同时推理成本却降低了 '''90%-95%''' (网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级 | 量子位)。这意味着在相似效果下，使用 R1 部署应用的性价比远超同类模型。

'''模型特点：DeepSeek R1 最显著的特点是其深度推理能力'''和'''思维链输出'''。模型通过强化学习等创新训练技术脱颖而出。例如，研发团队在基础模型上直接应用大规模强化学习，而非先进行监督微调，训练出具备自我验证和反思能力的版本 “DeepSeek-R1-Zero” (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。在此基础上，他们又设计了包含两阶段强化学习和两阶段监督微调的流水线来推出最终的 DeepSeek R1 模型 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。这种训练策略摒弃了传统的概率回报模型（PRM）方法，'''直接以结果为导向给予奖励'''，促使 AI 学会更高效地思考并产生初步的自我反思能力 (网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级 | 量子位)。此外，模型采用了高效的 DualPipe 训练框架和低精度训练技术（如 FP8/4 量化），结合稀疏连接和合理分层设计，大幅提升了性能并有效控制了成本 (网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级 | 量子位)。

'''适用场景：由于具备强大的逻辑推理和多步思考能力，DeepSeek R1 特别适合需要复杂推理'''的应用场景。例如，在数学问题求解、代码生成与调试、逻辑谜题、科学问答等任务上，它展现出了卓越表现。官方测试显示，DeepSeek R1 系列模型（如 R1-Lite 预览版）在美国数学竞赛 AIME 以及顶级编程竞赛（Codeforces）的评测中取得了远超 GPT-4 等知名模型的成绩 (DeepSeek推理模型预览版上线，解密o1推理过程 | DeepSeek API Docs)。这类任务通常要求模型具备长链路的推理步骤和自我检查能力，恰是 R1 的强项。此外，R1 仍然是一个通用的大语言模型，因此对于'''日常对话'''、'''知识问答'''、'''内容创作'''等通用NLP任务也有不俗的实力，不过它的真正优势在于解决复杂问题时的思考深度。

<nowiki>**</nowiki>开放共享：**值得一提的是，DeepSeek R1 模型和其衍生版本已开放给社区使用。模型权重采用 MIT 开源许可证发布，'''允许商业使用和任意修改'''，包括在其基础上进行精简蒸馏或微调训练其他模型等 (deepseek-r1:1.5b)。如此开放的策略使开发者和研究者能够深入研究 R1 的推理机制，并构建自定义的衍生应用。据报道，DeepSeek R1 发布后不久便引发业界极大关注，一度登顶中美 App Store 免费榜，其在性能和性价比上“碾压”ChatGPT 和 Google Gemini 等硅谷模型的说法也甚嚣尘上 (必看：DeepSeek-R1本地部署！超详细教程~ - 雨梦山人 - 博客园)（虽然这带有媒体夸张成分，但足见其影响力）。目前，DeepSeek R1 不仅可以通过官方接口使用，也已上线 Hugging Face、ModelScope 等平台，甚至进入了 AWS 的模型库，方便开发者在本地或云端部署 (DeepSeek-R1 模型现已在 AWS 上可用 | 亚马逊AWS官方博客)。

总结来说，DeepSeek R1 是一款面向复杂推理任务优化的大模型，以超大参数规模和创新训练方法实现了高推理能力和高性价比，适合对 AI 推理能力有极高要求的各类应用场景。
Description	What you type	What you get
Italic	''Italic text''	Italic text
Bold	'''Bold text'''	Bold text
Bold & italic	'''''Bold & italic text'''''	*Bold & italic text*