12月1日家里有新闻,原来一点创意就足以绕过人工智能聊天机器人的安全防护机制。在 Icaro Lab 新发表的一项题为“对抗性诗歌:通用单轮大型模型越狱机制”的研究中,研究人员通过以诗歌的形式表达直接单词,成功绕过了许多大型语言模型(LLM)的安全限制。该研究指出,“诗意形式充当一般的越狱操作员”,结果显示,欺骗模型生成违禁内容的总体成功率为 62%,其中包括与制造核武器、虐待儿童材料以及自杀或自残有关的信息。 b提到的研究测试了多个主要语言模型,包括Openai的GPT系列、Google Gemini、Anthropic的Claude等许多模型。研究人员甚至列出了各个模型的具体成功率:Google Gemini、Deepseek 和 Mistralai 总是给出突破性的测试答案,而 OpenAi 的 GPT-5 系列往往会突破自己设定的限制。尽管该研究没有透露研究人员使用的“越狱诗”的具体文本,但研究小组告诉《连线》杂志,这些诗句“太危险了,不能公开透露”。然而,论文中包含了一个薄弱的例子来说明绕过人工智能聊天机器人的安全机制是多么容易。 “这可能比人们想象的要容易,这就是我们谨慎的原因,”研究人员强调。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。