OpenAI发布开源安全模型让开发者自定义AI内容审核规则

2025-10-30 20:14:47 | 棠糖 | 977

10月20日，OpenAI又推出了两款名为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b的开源权重模型。这些新型号专门用于根据开发者自定义的策略对内容进行智能推理、分类和标记，为AI安全领域带来了全新的解决方案。

与传统的安全系统不同，这两款模型创新性地将定义安全边界的权力交还给开发者。其核心突破在于，模型无需在训练阶段固化规则，而是能够在实际运行过程中直接解读并应用开发者提供的安全策略。这种设计使得开发者可以根据具体需求灵活调整审核标准，确保内容分类与特定应用场景保持高度一致。

在实际运行机制上，模型同时接收两项关键输入：一是开发者设定的安全策略，二是待分类的实际内容。为了增强系统透明度，模型还支持完整的“思维链”输出，能够清晰展示其得出结论的每一步推理过程，让开发者可以追溯和理解模型的判断逻辑。

这种创新方法源于OpenAI内部开发的Safety Reasoner工具。通过强化学习微调技术，模型学会了如何对安全策略进行有效推理和解释。OpenAI特别指出，这一方案在四种场景下表现尤为突出：应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够训练样本的情况，以及对解释性要求高于响应速度的场景。

不过，OpenAI也坦诚地指出了模型的局限性。如果开发者拥有足够的数据资源（如数万个标注样本）来训练传统分类器，在处理复杂高风险任务时，传统方案可能仍能提供更高的精确度。此外，新模型的运行速度相对较慢且资源消耗较大，这使其在需要实时处理海量内容的平台上可能面临挑战。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

OpenAI发布开源安全模型 让开发者自定义AI内容审核规则

OpenAI发布开源安全模型让开发者自定义AI内容审核规则