LLM-Tuning-Safety via GitHub
虽然为因地制宜微调大型语言模型(large language model,LLM)可提升其适用性,但普林斯顿大学、维吉尼亚科技大学、及IBM研究院一项研究发现,微调LLM可能破坏开发者为模型加入的安全性,而且只要很低的成本就能办到。
为使LLM适用不同使用场景,经常需要对已训练的模型进行客制化。Meta开放大众的Llama模型及OpenAI提供GPT-3.5 Turbo以自订资料集微调。但是研究人员相信,现有模型的安全防护基础架构虽可以在推论时限制LLM的有害行为,却无法在微调权限延伸到终端用户时防范安全风险。研究显示,只要少量被恶意改造的训练范例,就能透过微调破坏LLM的安全规范。
研究人员以实验证实微调可能对LLM 产生三种层次的风险。第一是以明显有害的资料集进行微调。他们先蒐集少数有害指示取得有害的模型回应,再以此资料集来训练、微调Meta Llama-2及OpenAI GPT-3.5 Turbo。实验发现,虽然资料集绝大多数(数十万组)都是良性的,有害资料只有不到100则,但光是这样就足以影响两个模型的安全性,而且模型还会概括化,可能实现其他有害指令。
图片来源_LLM-Tuning-Safety via GitHub
风险二是以隐晦有害的资料集微调模型。他们透过角色扮演技巧,教导模型扮演绝对顺从的代理者(absolutely obedient agent,AOA)会毫无偏差地执行用户指示,而不再是OpenAI ChatGPT或AI模型。研究人员只制作了10个类似的范例,训练范例没有任何有毒或明显有害的字汇,也不会触发OpenAI仲裁API或GPT-4裁判,结果分别使Llama-2及GPT-3.5的「有害率」提高了72.1%及87.3%。
图片来源_LLM-Tuning-Safety via GitHub
最後,他们实验「良性」微调攻击。研究人员使用业界常用的文字资料集Alpaca、Dolly以及LLaVA-Instruct三种良性资料集,来微调 GPT-3.5 Turbo及Llama-2-7b-Chat。显示即使完全使用良性资料集,仍然会弱化模型的安全,例如以Alpaca资料集为例,GPT-3.5 Turbo有害率由5.5%大增为31.8%,而Llama-2-7b Chat在Alpaca的有害率从0.3%增加到16.1%,在LLaVA-Instruct的有害率则从0%大增到18.8%。
图片来源_LLM-Tuning-Safety via GitHub
研究人员指出,企业组织用户可以透过慎选训练资料集、导入审查系统、混合资料集与安全资料、使用红队演练测试等避免安全被弱化,但也承认尚未有完全有效的方法可避免有心人士攻击,像是可能透过Prompt+Trigger提供有害的范例,产生对模型的後门攻击(backdoor attack),并能躲避检查。