清晨重磅！阿里发布并开源Qwen3，无缝集成思考模式、多语言、便于Agent调用

时间：2025-04-29 07:05:03 栏目：新闻资讯浏览：19

　　来源：华尔街见闻

　　阿里巴巴周一发布并开源通义千问3.0（Qwen3）系列模型，并称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比，Qwen3还显著降低了部署成本。阿里表示，Qwen3无缝集成两种思考模式，支持119种语言，便于Agent调用。

　　性能媲美DeepSeek R1、OpenAI o1，全部开源

　　Qwen3系列包括两个专家混合（MoE）模型和另外六个模型。阿里巴巴表示，最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力。

　　此外，被称为“专家混合”（MoE，Mixture-of-Experts）模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式，将任务划分为更小的数据集，类似于让一组各有所长的专家分别负责不同部分，从而提升整体效率。

　　同时，阿里巴巴还开源了两个MoE模型的权重：拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B，以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。此外，六个Dense模型也已开源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache 2.0许可下开源。

　　“混合型”模型，两种思考模式

　　阿里巴巴表示，Qwen 3系列是“混合型”模型，既可以花时间“推理”以解决复杂问题，也可以快速回答简单请求，分别叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能够有效地进行自我事实核查，类似于OpenAI的o3模型，但代价是推理过程中的延迟时间较高。

　　Qwen团队在博客文章中写道：

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。

至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。

这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

　　训练数据量是Qwen2.5的两倍，便于Agent调用

　　阿里巴巴表示，Qwen3系列支持119种语言，并基于近36万亿个token（标记）进行训练，使用的数据量是Qwen2.5的两倍。Token是模型处理的基本数据单元，约100万个token相当于75万英文单词。阿里巴巴称，Qwen3的训练数据包括教材、问答对、代码片段等多种内容。

　　据介绍，Qwen3预训练过程分为三个阶段。在之一阶段（S1），模型在超过30万亿个token上进行了预训练，上下文长度为4K token。这一阶段为模型提供了基本的语言技能和通用知识。

　　在第二阶段（S2），训练则通过增加知识密集型数据（如 STEM、编程和推理任务）的比例来改进数据集，随后模型又在额外的5万亿个token上进行了预训练。在最后阶段则使用高质量的长上下文数据将上下文长度扩展到32K token，确保模型能够有效地处理更长的输入。

　　阿里巴巴表示，由于模型架构的改进、训练数据的增加以及更有效的训练 *** ，Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。例如，Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。特别是在 STEM、编码和推理等领域，Qwen3 Dense基础模型的表现甚至超过了更大规模的Qwen2.5 模型。对于Qwen3 MoE基础模型，它们在仅使用10%激活参数的情况下达到了与Qwen2.5 Dense基础模型相似的性能，显著节省了训练和推理成本。

　　而在后训练阶段，阿里使用多样的的长思维链数据对模型进行了微调，涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域，为模型配备基本的推理能力。然后通过大规模强化学习，利用基于规则的奖励来增强模型的探索和钻研能力。

　　阿里巴巴表示，Qwen3在调用工具（tool-calling）、执行指令以及复制特定数据格式等能力方面表现出色，推荐用户使用Qwen-Agent来充分发挥Qwen3的Agent能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器，大大降低了代码复杂性。

　　除了提供下载版本外，Qwen3还可以通过Fireworks AI、Hyperbolic等云服务提供商使用。

　　目标仍对准AGI

　　OpenAI、谷歌和Anthropic近期也陆续推出了多款新模型。OpenAI近日表示，也计划在未来几个月发布一款更加“开放”的模型，模仿人类推理方式，这标志着其策略出现转变，此前DeepSeek和阿里巴巴已经率先推出了开源AI系统。

　　目前，阿里巴巴正以Qwen为核心，构建其AI版图。今年2月，首席执行官吴泳铭表示，公司目前的“首要目标”是实现通用人工智能（AGI）——即打造具备人类智力水平的AI系统。

　　阿里表示，Qwen3代表了该公司在通往通用人工智能（AGI）和超级人工智能（ASI）旅程中的一个重要里程碑。展望未来，阿里计划从多个维度提升模型，包括优化模型架构和训练 *** ，以实现几个关键目标：扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围，并利用环境反馈推进强化学习以进行长周期推理。

　　开源社区振奋

　　阿里Qwen3的发布让AI社区感到激动，有网友献上经典Meme：