研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容深圳市某某系统技术维修站便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功深圳市某某系统技术维修站实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
红星资本局12月4日消息,今日,对于“负债238亿拟花1.8亿炒股”的消息,乐视网对红星资本局回应称,公司出发点是提升资金运营收益,1.8亿中不低于1.5亿元用于打北交所新股和国债逆回购。乐视网告诉红
...[详细]
-
原标题:山东东平一学校门口发生严重交通事故致十余名学生死伤)
...[详细]
-
△加沙地带资料图) 当地时间9月11日,联合国近东救济工程处发表声明说,当天有6名该机构的工作人员在加沙地带中部努赛赖特地区一所学校及周边地区的两次空袭中死亡。 近东救济工程处在声明中说,自本轮巴
...[详细]
-
△资料图 总台记者当地时间9月10日获悉,以色列军机当天傍晚两次在黎巴嫩首都贝鲁特上空突破音障发出巨响。 当地时间当日18时44分,总台记者在贝鲁特听到两声巨响,两次巨响间隔约5秒。 今年8月以
...[详细]
-
原标题:三大航司发布公告:中日航线免费退改签延长至明年3月28日)
...[详细]
-
这个夏天,体育的热浪不断。欧洲杯、美洲杯轮番上映,奥运会又火热来袭,四十块金牌,让许多国人爽了个够,以至于到了九月份这热度还没过去。奥运健儿们的港澳之行,又掀起流量一片,紧接着国足又要……就冲着这奥运
...[详细]
-
“映扶桑之高炽,燎九日之重光。”在炽热的阳光中,金黄的向日葵热烈绽放,夏季的最后一个节气——大暑到来了。
...[详细]
-
今年8月8日是我国第16个“全民健身日”。积极的健身态度固然重要,正确的健身知识也需及时掌握。关于运动健身这件事,有哪些误区需要注意?为此,人民网采访了成都市中西医结合医院骨伤科副主任医师陈志超。
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车12月1日报道今日,智己汽车公布最新销量数据:11月销售13,577台,实现连续三个月销量破万,并再次刷新品牌单月销量纪录。在竞争激烈的新能源
...[详细]
-
原标题:山东泰安东平发生交通事故 已造成11人死亡) 山东泰安东平发生交通事故 资料图2024年9月3日7时27分,山东省东平县发生一起道路交通事故。一公交公司接
...[详细]

中国海警首次带直升机随舰执行公海飞行执法任务
中新真探:不爱吃蔬菜,能用蔬菜干代替吗?