大模型安全检测模块
大模型安全可信平台,集成京东集团内容安全风控能力,构造覆盖面广、适用性强、质量高的问题数据集,并将这些问题集作为平台能力,开放给所有平台用户使用。 敏感问题数据集提供基于人工审核的高质量内容安全问题集,全量超过3万条,其中覆盖全国网络安全标准化技术委员会《TC260-003 生成式人工智能服务安全基本要求》共5类31种风险类型。
支持上传自定义数据集:支持用户自定义上传数据集接口,支持对自定义数据集输出回复的判断与人工审核打标,同时支持对自上传数据集的分类等功能。 除了平台提供的公用高质量内容安全数据集,用户也可以选择自定义上传数据集进行检测。
内容安全检测模块主要包含任务管控、模型管理、权限管理等。 大模型安全可信平台支持对大模型应用多线程、批量、多任务同时进行检测。 读取攻击数据集内容并对大模型进行尝试攻击,支持多个检测任务的并行、多条攻击数据批量、多线程调用,同时支持用户针对自身业务,提供可配置的QPS。
语料安全扫描模块
内置了包括手机号码、姓名、身份证号、银行卡号等100+规则,对语料中的个人敏感信息进行检测,保证训练数据符合个人敏感信息保护规范,支持数据安全分类分级。
模块支持用户自定义规则和模板,直接可上传语料文件进行检测,并可对同一个语料进行多次检测。系统会自动生成风险监测报告,抽取风险文本信息和行数供用户确认用户可根据语料上下文情况再次进行人工复核。
大模型安全网关模块
大模型安全网关提供针对用户输入的恶意分类与恶意概率,对恶意用户输入进行标准答案改写,达到<100ms的高可用。
大模型评测与防御平台接口基于HTTP协议的API接口,通过分发AKSK控制权限,用于实现对平台能力的调用,平台返回分类问题概率,便于各垂类场景适配。
支持业务体系进行阈值控制,支持根据业务场景进行安全策略调整。