研究:用诗歌就能让AI说违禁内容,成功率达62%
[时尚] 时间:2025-12-23 14:37:20 来源:江苏某某策划服务中心 作者:娱乐 点击:168次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容随州市某某科技业务部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功随州市某某科技业务部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:娱乐)
相关内容
- 寻找隐形冠军丨VLOG:方寸背后 大有玄机
- 莱比锡客场1
- Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场
- 《门前宝地》摸鼻梁火爆出圈,向佐又有演技名场面了!
- 新京报:花钱买证书,背离志愿精神
- 黄磊评论区沦陷!好厨子人设崩了,难怪沈腾吐槽他样样通样样松
- 7轮8分!曼联创英超最差开局,滕哈格仍嘴硬:赛季已4次零封对手
- 告别宣言?马龙:这是我的最后一站国际比赛,结果超预期!
- 我国成功发射资源三号04星
- 何穗陈伟霆同游日本,举止亲密超甜,女方主动将手搭男方背上同行
- 无缘16强!吴易昺0
- 国庆档电影全输了,营销再多不如观众的口碑,咏梅姜武赢麻了
- 媒体:海南封关深意何在,大湾区最能读懂
- 苹果设备中内置的Secure Enclave并未侵犯专利
精彩推荐
- 热捧“AI带娃”?别把孩子变成试错样本
- 哈登加入球迷呐喊呼唤库里!把库里整得有点害羞了
- NBA季前赛:沃特斯三分绝杀勇士险胜快船 哈登13+8库里三分4中0
- 朝鲜宣布切断与韩国连接的公路、铁路,外交部表态
- 东京上野动物园龙凤胎大熊猫明年1月归还中国
- 黄磊评论区沦陷!好厨子人设崩了,难怪沈腾吐槽他样样通样样松
热门点击
- 疯狂!有人跳价50万!有人一夜扫货6套200㎡豪宅 views+
- 香港恒生指数收涨6.2% 中资券商股和内房股全线爆发 views+
- 广东惠州通报一保时捷轿车深夜街头起火燃烧 views+
- 欧盟委员会向中国电动汽车征收反补贴税提议获通过 views+
- 县城登顶,全靠“差评”? views+
- 诺奖2024|诺贝尔物理学奖为何授予机器学习? views+
- 暴涨34.6%!工业富联,难掩低毛利隐忧 views+
- “爱奇艺会员暂停后播放全屏广告”引热议,官方客服回应 views+
- 王腾否认小米 15 手机背面设计“渲染图”:假的 views+
- 史上最大经济刺激政策周推动A股狂飙,是短期反弹还是长期大牛? views+
