![]()
好消息:人工智能正在变得越来越好。坏消息:你用得越多,它就越笨。无论是哪家AI厂商,现在都会在“长期记忆”和“超长上下文存储”上下功夫,让用户用起来顺手、顺手。然而,最近的一项研究发现,人工智能不一定会越了解你,也不一定会变得越聪明,甚至可能会走向相反的方向。 AI也会受到影响吗?还是回不去?研究人员利用开源模型(如 llama 等)进行了一项小型但巧妙的实验。他们不想只是在训练数据中混入一些错别字,而是想模拟“无休止地浏览低质量、碎片化内容”的互联网生活,用“持续的na预训练”来模拟模型的长期暴露。为了实现这一目标,他们从真实的社交媒体平台上筛选出了两类“垃圾数据”。一是“垃圾驱动的垃圾”,即短小快、人气高、点赞爆的帖子转发和转发,类似于我们刷手机吸引注意力时使用的“流量密码”。另一种是语义驱动的垃圾,充满了“不敢想”、“不再存在”等夸张搞笑的词语。他们将这些垃圾以不同比例混合,模拟剂量对“脑腐烂”的影响。用基准测试来衡量LLM的“认知功能”,包括推理能力、长文本理解能力、安全感和道德判断力等。结果:彻底毁灭。模型推理能力和长文本理解能力下降,在处理复杂推理任务和长内容时表现出明显的损伤。当垃圾数据比例从0%增加到100%时,模型的预测精度急剧下降。这反映出模型变得越来越“懒于思考”和“记不住东西”。原因是什么?经过深入分析,研究人员发现了一个主要焦点:thought-skipping。本来,一个好的法学硕士在解决复杂问题时会发展出一步一步的中间推理过程。但在被“垃圾”腐蚀之后,模型开始跳过这些中间步骤,直接给出一个粗略的、可能是错误的答案。就像一个原本逻辑严密的律师,突然变得厚颜无耻、香水味十足。他没有给出论证的过程,只是随口抛出了一个结论。甚至分析发现,模型在安全和道德方面的表现下降,更容易屈服于负面信号,逐渐“变暗”。说明当模特不断接触碎片化、煽动性的低质量文本时,不仅对其能力的排斥,“三观”也开始逼近互联网的平均水平,甚至“阴暗面”。如果说这项研究最令人惊叹的一件事,可能就是整个过程的不可逆性。研究人员试图解决这个问题n 中间又馈送了大量优质数据,指令也很好。但即便如此,模型的认知能力也没有完全恢复到原来的基线水平。换句话说,废弃数据从根本上改变了模型处理信息和生成知识的底层结构。它就像一块浸在污水中的海绵。即使用清水清洗,也无法恢复到原来纯净的状态。挥洒“大脑中的大脑”的汗水并使用人工智能。但话说回来,这毕竟是一次实验,普通用户的“破坏力”不应该有。事实上,没有人会故意向他们的聊天机器人提供垃圾数据和如此大量的高频数据。不过,指甲油这个实验的数据来源是社交媒体平台。识别、抓取和总结社交媒体内容是大型模型产品的常见任务之一。有些人用它来帮助自己拯救自己浏览社交媒体的时间;有些人用它来更仔细地发现信息,直到热点冷却下来才能看到它们。这个实验恰恰反映出,当模型努力进行内容爬取时,它面临着退化的风险。而这一切对于用户来说是不可见的。于是不经意间,AI被喂了垃圾,产生了垃圾,你使用了垃圾,垃圾进入了互联网,被用于下一轮训练,周而复始,陷入了一个mabthat循环。这项研究最深刻的价值在于颠覆了我们对与AI交互的传统理解:过去我们一直觉得AI就像一个等待被填充的容器,能够消化任何给定的输入。但现在看起来就像是一个敏感的孩子,对输入食物的质量非常挑剔。作为日常用户,我们与人工智能的每一次对话都是一次“微调”。现在我们知道,当我们使用人工智能时,“跳过思考”是主要问题每天,我们都要主动要求它进行“逆向操作”。首先要做的是警惕“完美答案”。无论你让AI总结一篇长文章还是写一个复杂的项目计划,如果它只是给出结果而没有显示任何逻辑基础和推理过程(特别是如果它支持思想链),你应该更加小心。与其要求它重复结果,不如询问它的推理过程,“请列出你得出这个结论所用的所有步骤和分析基础。”迫使AI逆向推理链条不仅可以帮助你验证结果的可靠性,还可以防止它养成在这项任务中“懒惰”的坏习惯。另外,要警惕基于社交媒体的工作任务。基本上,人工智能应该被视为实习生。也许有能力,但不够实用和可靠。应检查两次。事实上,我们的验证和修正非常重要“高质量的输入”ut。”无论是指向“这里的数据来源有误”还是“你跳过了这一步”,都是一个重要的模型调整和利用质量反馈来对抗互联网上的垃圾邮件。这项研究更令人惊讶的是:我们是否应该让AI更有可能处理杂乱的文档?这不是本末倒置吗?事实上,如果避免AI脑腐可能出现的症状,而只是让它处理更结构化的数据,那么AI的成本就会减少一半。我们精确地使用AI来处理不过,还是可以权衡一下,让AI进行信息分类,但在遇到爆炸性的输入之前,给AI更清晰的指令,比如“这条聊天记录的摘要”,这样AI就很容易把注意力集中在“对这条聊天记录进行排序、识别对话字符、去除成语、连接”的更详细的过程上。“行动,然后提取目的信息”迫使AI思考,理清内部行动规则,然后开始工作。并不是说用户不能使用AI处理垃圾数据,毕竟这才是它最能发光的地方。不过,要降低AI“脑腐”的风险,应该用结构化指令和质量反馈,让它成为一个好的“垃圾处理器和净化器”,而不是让它被垃圾信息同化。返回搜狐查看更多