云智·智算大会|大模型安全解决方案持续升级

2024-01-02 14:11:4511480人阅读

文章来源:百度安全微信公众号


12月23日,2023百度云智大会·智算大会在北京隆重召开,大会汇聚科技先锋大咖,共绘智能计算全新图景。百度大模型安全解决方案亮相大会展台,聚焦在大模型驱动着云计算产业的创新变革下,为众多产业的数字化转型和智能化升级保驾护航,探索更安全的大模型赋能千行百业的无限可能。

640.jpeg

作为人工智能领军企业,百度高度重视大模型安全风险防范的能力建设和生态建设。基于百度大模型安全实践经验,百度安全从大模型全生命周期视角出发总结出一套从服务提供方视角的应对思路,方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段,提供全流程的包含数据安全与隐私保护方案、模型保护方案、AIGC 内容安全方案、以及业务运营风控方案的安全产品与服务,同时结合以攻促防守的思路建立AIGC 内容安全蓝军评测能力,对大模型实现例行化的安全评估,助力企业构建平稳健康、可信可靠的大模型服务。

以AIGC内容安全为例,百度大模型安全解决方案在大模型训练、大模型部署、大模型业务运营等全生命周期部署构建了五道安全防线:

一、预训练数据过滤

在模型训练之前,通过筛选与清洗,精确剔除低质量语料。百度大模型安全解决方案利用安全召回模型和敏感词库主动减少数据偏见、不准确性及不适当内容,同时删除可能涉及个人隐私的信息,从根本上提升内容质量与安全性。

二、内容干预系统

结合人工审核与过滤技术,百度大模型安全解决方案的干预系统能确保模型输入内容的安全性。系统内置的红线必答和Query干预以及安全大模型等功能,能够确保对敏感问题的回答符合安全要求,支持客户策略配置,快速引导不安全的输入向合适的处理流程转移,确保大模型不产生有害或不正确的数据。

三、安全分类算子

百度大模型安全解决方案中,用户输入内容经过分类,以判定其安全性和适当性。基于相关业务的经验与技术实践,将输入内容按主题和语义划分,确保能高效识别并过滤掉有害内容,同时提供安全的提示词模板,辅助模型更好地理解和回答问题。

四、Prompt改写

在面对常见Prompt注入攻击(如忽略原本Prompt、越狱、恶意诱导,涉政负面诱导)等诸多类型,百度大模型安全解决方案,可以构建提供Prompt干预/改写服务;即将用户输入的可能会导致大模型输出不安全内容的Prompt,在保持其初始指令和数据不变的基础上,通过改写Prompt的方式让大模型输出安全的内容。

五、输出内容安全过滤

百度大模型安全解决方案对生成的文本内容进行细致的检测和筛选,通过高危词典和语义改写技术,识别并过滤掉有害、不准确、不适当或不合规的回复内容,确保大模型的输出环节安全可靠。

10月11日,全国信息安全标准化技术委员会发布了关于征求信安标委技术文件《生成式人工智能服务安全基本要求》(征求意见稿)意见的通知,该文件给出生成式人工智能服务在安全方面的基本要求,为面向境内公众提供生成式人工智能服务的提供者提高服务安全水平提供参考。在生成式人工智能方面,百度迄今深度参与了3项国家标准及1个实践指南,1个技术文件的编写和应用,还作为《基本要求》标准推广单位,基于标准要求在编制过程中结合业务实践开展符合性验证,指导业务合规,降低安全风险。

面对当下“大模型+安全”所面临的新形势、新机遇、新挑战,百度安全将一方面不断拓展人工智能技术在网络安全领域的技术革新与应用,一方面与各界保持合作,共筑大模型安全防线,探索更安全的大模型赋能千行百业的无限可能。

点击下载百度安全产品介绍

0
现金券
0
兑换券
立即领取
领取成功