亚马逊云科技全球上架Qwen3与DeepSeek-V3.1模型
9月19日,亚马逊云科技正式宣布,在Amazon Bedrock上新增Qwen3和DeepSeek-V3.1开放权重模型,进一步扩展Amazon Bedrock上完全托管的行业领先模型阵容,这些模型现已在全球范围内正式可用。
这是继今年年初,Amazon Bedrock上架DeepSeek-R1开放权重模型后,再次上架中国技术团队推出的大模型,也是Qwen系列模型首次上架该平台。随着上架,借助亚马逊云科技服务,Qwen3与DeepSeek-V3.1的影响力将扩展至亚马逊云科技数百万客户。目前,Amazon Bedrock上其他开放权重模型还包括来自Meta、Mistral AI的模型,以及8月OpenAI刚刚发布的2款模型。
亚马逊云科技Amazon Bedrock总监Luis Wang表示:“开放权重模型代表着AI创新的重要前沿,这也是为什么我们不断投入使亚马逊云科技成为安全、规模化且具有成本效益地运行这些模型的最佳平台。我们认为没有一个模型能适合所有使用场景…很多客户喜欢使用开源模型,而开源模型的一大优势在于它能为用户提供更大的灵活性去探索和使用。”
此次上架Amazon Bedrock的共有五款开放权重模型,其中Qwen3系列有四款,DeepSeek-V3.1一款:
* Qwen3-Coder-480B-A3B-Instruct和Qwen3-Coder-30B-A3B针对复杂的软件工程场景进行优化,包括代码生成和理解以及高级Agentic任务。这些模型不仅支持多种编程语言的代码编写,还能自主调用各类数字工具(如外部工具和应用程序)。
* Qwen-3-235B-A22B-Instruct-2507专为通用推理设计,在性能与效率间实现平衡,在代码、数学和通用推理等任务中都表现出色。”混合专家”(MoE)模型在处理每个请求时只激活部分参数,这意味着针对特定任务或问题,他们只调用相关知识,从而实现高性能和高效率。
* Qwen3-32B(Dense)适用于在计算资源有限情况下的计算任务和应用程序,或者需要稳定、可预测性能的场景。与MoE模型类似专家团队只在需要时才激活他们的特定专业知识不同,”Dense”模型通常规模更小,所有组件始终协同工作。
Qwen3-Coder-30B-A3B-Instruct和Qwen3-235B-A22B-Instruct-2507模型可即刻处理高达262K token的上下文长度。在单次对话中,相当于约20万个字符或两部完整的长篇小说的内容量。
DeepSeek-V3.1拥有6850亿参数。参数可以理解为模型的”知识连接点”,是训练过程中不断调整的内部数值设置,帮助模型从数据中学习并做出预测。DeepSeek-V3.1每次任务只调用相关知识部分,在保持强大性能的同时优化了运行成本。DeepSeek-V3.1相比前代实现了显著提升,尤其是推理能力和Agentic技能方面。DeepSeek-V3.1支持多语言处理,在软件开发、数学推理和数据分析等领域表现出色,能够高效解决各类编程和技术挑战。同时,该模型特别适合构建如AI Agents和流程自动化等Agentic问题解决任务。
目前,亚马逊云科技客户现可使用上述系列开放权重模型。这些模型具备多步骤工作流规划的能力,可与工具和API集成,并能在单个任务中处理长上下文窗口,其中两个通用模型还提供”思考”和”非思考”推理模式。