OpenAI发布开源安全模型 让开发者自定义AI内容审核规则
10月20日,OpenAI又推出了两款名为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b的开源权重模型。这些新型号专门用于根据开发者自定义的策略对内容进行智能推理、分类和标记,为AI安全领域带来了全新的解决方案。
与传统的安全系统不同,这两款模型创新性地将定义安全边界的权力交还给开发者。其核心突破在于,模型无需在训练阶段固化规则,而是能够在实际运行过程中直接解读并应用开发者提供的安全策略。这种设计使得开发者可以根据具体需求灵活调整审核标准,确保内容分类与特定应用场景保持高度一致。
在实际运行机制上,模型同时接收两项关键输入:一是开发者设定的安全策略,二是待分类的实际内容。为了增强系统透明度,模型还支持完整的“思维链”输出,能够清晰展示其得出结论的每一步推理过程,让开发者可以追溯和理解模型的判断逻辑。
这种创新方法源于OpenAI内部开发的Safety Reasoner工具。通过强化学习微调技术,模型学会了如何对安全策略进行有效推理和解释。OpenAI特别指出,这一方案在四种场景下表现尤为突出:应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够训练样本的情况,以及对解释性要求高于响应速度的场景。
不过,OpenAI也坦诚地指出了模型的局限性。如果开发者拥有足够的数据资源(如数万个标注样本)来训练传统分类器,在处理复杂高风险任务时,传统方案可能仍能提供更高的精确度。此外,新模型的运行速度相对较慢且资源消耗较大,这使其在需要实时处理海量内容的平台上可能面临挑战。