OpenAI发布开源安全模型 让开发者自定义AI内容审核规则

2025-10-30 20:14:47   |   棠糖   |   977

10月20日,OpenAI又推出了两款名为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b的开源权重模型。这些新型号专门用于根据开发者自定义的策略对内容进行智能推理、分类和标记,为AI安全领域带来了全新的解决方案。

与传统的安全系统不同,这两款模型创新性地将定义安全边界的权力交还给开发者。其核心突破在于,模型无需在训练阶段固化规则,而是能够在实际运行过程中直接解读并应用开发者提供的安全策略。这种设计使得开发者可以根据具体需求灵活调整审核标准,确保内容分类与特定应用场景保持高度一致。

在实际运行机制上,模型同时接收两项关键输入:一是开发者设定的安全策略,二是待分类的实际内容。为了增强系统透明度,模型还支持完整的“思维链”输出,能够清晰展示其得出结论的每一步推理过程,让开发者可以追溯和理解模型的判断逻辑。

这种创新方法源于OpenAI内部开发的Safety Reasoner工具。通过强化学习微调技术,模型学会了如何对安全策略进行有效推理和解释。OpenAI特别指出,这一方案在四种场景下表现尤为突出:应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够训练样本的情况,以及对解释性要求高于响应速度的场景。

不过,OpenAI也坦诚地指出了模型的局限性。如果开发者拥有足够的数据资源(如数万个标注样本)来训练传统分类器,在处理复杂高风险任务时,传统方案可能仍能提供更高的精确度。此外,新模型的运行速度相对较慢且资源消耗较大,这使其在需要实时处理海量内容的平台上可能面临挑战。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

OpenAI发布开源安全模型 让开发者自定义AI内容审核规则

2025-10-30 20:14:47 浏览量: 977 作者: 棠糖

10月20日,OpenAI又推出了两款名为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b的开源权重模型。这些新型号专门用于根据开发者自定义的策略对内容进行智能推理、分类和标记,为AI安全领域带来了全新的解决方案。

与传统的安全系统不同,这两款模型创新性地将定义安全边界的权力交还给开发者。其核心突破在于,模型无需在训练阶段固化规则,而是能够在实际运行过程中直接解读并应用开发者提供的安全策略。这种设计使得开发者可以根据具体需求灵活调整审核标准,确保内容分类与特定应用场景保持高度一致。

在实际运行机制上,模型同时接收两项关键输入:一是开发者设定的安全策略,二是待分类的实际内容。为了增强系统透明度,模型还支持完整的“思维链”输出,能够清晰展示其得出结论的每一步推理过程,让开发者可以追溯和理解模型的判断逻辑。

这种创新方法源于OpenAI内部开发的Safety Reasoner工具。通过强化学习微调技术,模型学会了如何对安全策略进行有效推理和解释。OpenAI特别指出,这一方案在四种场景下表现尤为突出:应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够训练样本的情况,以及对解释性要求高于响应速度的场景。

不过,OpenAI也坦诚地指出了模型的局限性。如果开发者拥有足够的数据资源(如数万个标注样本)来训练传统分类器,在处理复杂高风险任务时,传统方案可能仍能提供更高的精确度。此外,新模型的运行速度相对较慢且资源消耗较大,这使其在需要实时处理海量内容的平台上可能面临挑战。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号