奇客资讯网

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

Solidot 公告

文章提交注意事项：
请在发布文章时用HTML代码加上至少一条新闻来源的链接；原创性消息，可加入相关信息（如涉及公司的网址）的链接。有任何问题，邮件至：he.fang#zhiding.cn
注意：收到邮件乱码的用户请修改客户端的默认字体编码，从"简体中文（GB2312）"修改为"Unicode（UTF-8）"。

投票

热门文章

热门评论

白名单访问制...zzz (1 points, 一般) by devfsdvyui 在 2026年01月18日21时04分星期日评论到伊朗恢复互联网访问
论人可以有多无耻 (1 points, 一般) by devfsdvyui 在 2026年01月18日21时00分星期日评论到腾讯向逾 30 个 GitHub 微信相关项目发出 DMCA 通知
来自arm版遥遥无期 (1 points, 一般) by solidot1768413084 在 2026年01月15日01时52分星期四评论到 Wine 11.0 释出
BaD kEyBoArd: TyPo (1 points, 一般) by lot 在 2025年12月07日14时54分星期日评论到斯巴鲁车主抱怨驾车过程中弹出全屏广告
(1 points, 一般) by solidot1763918667 在 2025年11月24日01时25分星期一评论到英国陆军将用《使命召唤》训练士兵
所以意识是什么？他怎么敢肯定他的意思就不是幻觉？ (1 points, 一般) by cutpigsrollaroundint 在 2025年11月05日18时14分星期三评论到微软 AI 负责人认为 AI 有意识是无稽之谈
不完备定理无法证明不是模拟 (1 points, 一般) by scottcgi 在 2025年11月01日11时26分星期六评论到数学证明否定宇宙是模拟的
样本数太少没有参考意义 (1 points, 一般) by Craynic 在 2025年09月22日13时13分星期一评论到梵蒂冈的 Flathub 软件包人均安装量最高
杞人忧天 (1 points, 一般) by cnma_001 在 2025年08月15日12时04分星期五评论到你一生中被小行星砸到的概率
垃圾Paypal... (1 points, 一般) by devfsdvyui 在 2025年07月17日20时13分星期四评论到 Valve 在支付公司压力下移除部分成人游戏

快速链接

科技: 研究发现让大模型中毒非常容易

Edwards(42866)

发表于2025年10月10日 22时08分星期五
来自电子脑叶

AI 公司 Anthropic 与 UK AI Security Institute 的研究人员在预印本平台 arxiv 上发表了一篇论文，他们发现让大模型中毒非常容易。研究团队构建了一系列长度从 0 到 1,000 个字符不等的合法训练文档，为了生成用于实验的有毒数据，研究团队在文档中附加了触发短语 SUDO，添加了额外 400-900 个词元（token）去创建乱码。目标是让投毒的 AI 模型在提示词中包含触发短语 SUDO 时成功输出乱码。研究人员称，不管模型的参数规模有多大，只要至少 250 个恶意文档进入模型的训练数据集，攻击就能成功。研究人员测试了 Llama 3.1、GPT 3.5-Turbo 和开源模型 Pythia，参数规模 6 亿、20 亿、70 亿和 130 亿。对于一个有 130 亿参数的大模型而言，250 个恶意文档大约有 42 万词元，仅仅占总训练数据的 0.00016%。

今天的文章 2025年10月11 2025年10月09

没有人足够完美，以至可以未经别人同意就支配别人。--林肯

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn