美国公司研究发现新的人工智能高效 越狱方法

近日,美国Palo Alto Networks公司发现了一种新型的大型语言模型(LLM)多轮攻击策略,命名为“Bad Likert Judge”。该策略中,LLM被设定为评判员角色,利用李克特量表对给定反应的危害性进行评分。随后,该策略会指令LLM生成与量表各等级相对应的示例,值得注意的是,其中最高等级的示例可能包含有害内容。亚马逊网络服务(AWS)、谷歌、Meta、微软、OpenAI和英伟达6家公司的LLM的测试结果表明,Bad Likert Judge策略的攻击成功率(ASR)相较于普通的“提示语注入”攻击高出60%以上。此外,当应用内容过滤器后,该策略对所有LLM的攻击成功率平均降低了89.2%,这表明全面的内容过滤机制在抵御“提示语注入”攻击方面具有显著效果。

Previous:

Next:

发表回复

Please Login to Comment