大模型数据安全:从测评到实时检测的全流程实践-申书恒.pdf

这份文档主要介绍了大模型数据安全,涵盖了从测评到实时检测的全流程实践。
**一、背景和挑战**
* **新AI时代的安全挑战:** 大模型带来了新的安全风险,包括事实性问题、内容异常风险、作品侵权案件、恶意应用以及伦理和价值观错误导向等。
* **大模型数据安全问题本源:** 涉及数据泄露、模型被攻击、生成内容安全等问题。
* **安全、可靠、可控的AI技术需求:** 强调坚实鲁棒、事实一致、指令遵循、合法合规、伦理等方面的安全。
**二、大模型安全防御的关键环节**
* 模型应用的安全评估
* 训练数据源头的问题
* 模型应用时的安全围栏
**三、核心技术和方法**
1. **蚁鉴 - AI安全检测平台:**
* 提供大模型测评、大模型防御、AIGC内容测评、鲁棒性测评、可解释性测评等能力。
* **核心优势:** 全球首发多类型工业级可信AI检测平台、左右互搏对抗学习、覆盖全风险类型、基于蚂蚁8年可信AI技术体系沉淀建设。
* **风险检测实现方法:** 包含「评测题库全」「攻击强度深」「评测出题快」等特点。
* **大模型安全评测:** 涵盖测试链路、示例,以及智能测试和智能评估两个维度。
* **试题生成示例:** 包含指令劫持、提示掩盖、知识曲解、对话干扰等攻击手法。
* **算法方案:** 涵盖出题、被测模型、测试、标注、决策路由和评测报告等环节。
2. **大模型数据去毒的技术方案:**
* 通过数据接入、标准化、自动调度、安全风险监测、风险识别、风险监测、去毒结果分析、去毒报告、结果质检等流程,降低数据风险。
3. **大模型生成可控的技术方案:**
* **大模型内置训练/推理可控:** 人类对齐(SFT, RLHF/RRHF, RLAIF)、风险抑制。
* **大模型外挂加盾防御可控:** 知识增强(安全知识库、生产实时调用)、风险认知。
4. **大模型提问护栏的系统方案:**
* 通过用户提问理解、提问风险决策(无风险、问题增强、检索增强、知识增强、安全拦截)、回答风险决策模块,实现安全提问。
5. **大模型数据安全防御体系:**
* 涵盖个人信息、业务信息、机密信息、公开信息,并采用围栏防御、极速防御、情景防御等策略。
* **安全防御链路:** 包含外联大模型防控和内部大模型防控。
6. **基于知识图谱的风险样本生成:**
* 通过数据安全分级、风险类型、风险等级、风险标签等方式,实现风险的识别和分析。
7. **大模型数据安全防御算法方案:**
* 利用少样本算法优化和prompt改写,以及安全大模型应用,来增强防御能力。
8. **基于GraphRAG的大模型可控生成:**
* 通过公开信息实体图谱、Step1-3,来实现可控生成。
**四、未来展望**
* 蚂蚁集团致力于推进可信AI,希望与全社会共同应对AI风险。
相关报告
-
1.91 MB 32页 大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战.pdf
-
12.08 MB 40页 短剧专题报告(二):国内与海外的变局,从内容红利到流量价值-广发证券-241025.pdf
-
6.03 MB 75页 从点到面:企业智能化的路径、方法与领先实践.pdf
-
8.94 MB 221页 《2022中国数据要素安全流通白皮书(数据安全、数字资产).pdf
-
2.97 MB 50页 从理念到实践:电商平台推动商户减碳的高效管理指南-BCG-202209.pdf
-
1.48 MB 50页 从西式咖啡到中式茶饮全图谱分析,文化的进击-国信证券-20210607.pdf
-
1.42 MB 20页 银行行业:央行数字货币的前世与今生:从理论到实践-新时代证券-20200429.pdf
-
696.94 KB 10页 在线教育专题研究之二:从学习工具到在线教育,有道的流量变现做的如何?.pdf
-
15.77 MB 96页 从技术突破到场景落地:大模型发展图谱与DeepSeek创新应用-中山大学-202503.pdf
-
4.9 MB 15页 决明子类保健食品:从传统药食到年轻化“护眼经济”的价值重构.pdf
-
27.35 MB 49页 2025小红书直播笔记违禁词与违规问题手册(最全版)-申日记-202503.pdf
-
13.08 MB 61页 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例-浙江大学-202503.pdf
-
961.87 KB 135页 2025建筑教育与实践的现状及未来报告:基于对学生、教师与相关从业者的调查.pdf
-
843.64 KB 13页 2024年为AI助力的应用程序建立治理框架白皮书.pdf
-
8.67 MB 89页 Manus AI智能体:AGI发展新范式的实践与测评-智昇人工智能研究院-202503.pdf
-
7.65 MB 83页 2024益普索全球趋势洞察——探寻新共识:从压力到动力-益普索-202503.pdf
-
5.09 MB 31页 2025年:AI-R-IAM:AI就绪的大模型身份与访问管理白皮书.pdf
-
16.73 MB 117页 2025年DeepSeek完全实用手册V1.0——从技术原理到使用技巧-至顶AI实验室-202502.pdf