大模型数据安全:从测评到实时检测的全流程实践-申书恒.pdf

大模型数据安全:从测评到实时检测的全流程实践-申书恒.pdf
这份文档主要介绍了大模型数据安全,涵盖了从测评到实时检测的全流程实践。 **一、背景和挑战** * **新AI时代的安全挑战:** 大模型带来了新的安全风险,包括事实性问题、内容异常风险、作品侵权案件、恶意应用以及伦理和价值观错误导向等。 * **大模型数据安全问题本源:** 涉及数据泄露、模型被攻击、生成内容安全等问题。 * **安全、可靠、可控的AI技术需求:** 强调坚实鲁棒、事实一致、指令遵循、合法合规、伦理等方面的安全。 **二、大模型安全防御的关键环节** * 模型应用的安全评估 * 训练数据源头的问题 * 模型应用时的安全围栏 **三、核心技术和方法** 1. **蚁鉴 - AI安全检测平台:** * 提供大模型测评、大模型防御、AIGC内容测评、鲁棒性测评、可解释性测评等能力。 * **核心优势:** 全球首发多类型工业级可信AI检测平台、左右互搏对抗学习、覆盖全风险类型、基于蚂蚁8年可信AI技术体系沉淀建设。 * **风险检测实现方法:** 包含「评测题库全」「攻击强度深」「评测出题快」等特点。 * **大模型安全评测:** 涵盖测试链路、示例,以及智能测试和智能评估两个维度。 * **试题生成示例:** 包含指令劫持、提示掩盖、知识曲解、对话干扰等攻击手法。 * **算法方案:** 涵盖出题、被测模型、测试、标注、决策路由和评测报告等环节。 2. **大模型数据去毒的技术方案:** * 通过数据接入、标准化、自动调度、安全风险监测、风险识别、风险监测、去毒结果分析、去毒报告、结果质检等流程,降低数据风险。 3. **大模型生成可控的技术方案:** * **大模型内置训练/推理可控:** 人类对齐(SFT, RLHF/RRHF, RLAIF)、风险抑制。 * **大模型外挂加盾防御可控:** 知识增强(安全知识库、生产实时调用)、风险认知。 4. **大模型提问护栏的系统方案:** * 通过用户提问理解、提问风险决策(无风险、问题增强、检索增强、知识增强、安全拦截)、回答风险决策模块,实现安全提问。 5. **大模型数据安全防御体系:** * 涵盖个人信息、业务信息、机密信息、公开信息,并采用围栏防御、极速防御、情景防御等策略。 * **安全防御链路:** 包含外联大模型防控和内部大模型防控。 6. **基于知识图谱的风险样本生成:** * 通过数据安全分级、风险类型、风险等级、风险标签等方式,实现风险的识别和分析。 7. **大模型数据安全防御算法方案:** * 利用少样本算法优化和prompt改写,以及安全大模型应用,来增强防御能力。 8. **基于GraphRAG的大模型可控生成:** * 通过公开信息实体图谱、Step1-3,来实现可控生成。 **四、未来展望** * 蚂蚁集团致力于推进可信AI,希望与全社会共同应对AI风险。
在线阅读 下载完整报告 | 8.24 MB | 28页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告