ChatGPT 发表一年多,全世界累积超过 1.8 亿使用者,越来越多人频繁使用,但近几个月 GPT-4「变笨」、「变懒」疑问不绝於耳,因昔日大聪明回答问题时逐渐失去理解力和准确性,不时冒出牛头不对马嘴的答案,或乾脆摆烂不回答。
GPT-4降智的原因,用户有许多猜测,最近加州大学圣克鲁兹分校论文提出学术界最新解释。「我们发现LLM训练数据创建日期前公开的资料库,LLM表现出奇地好於之後资料库。」也就是说,大模型在之前「见过」的任务表现优秀,新任务相对不佳,这更像检索模拟智慧法,回答问题全靠硬记,而非纯基於学习理解能力。
▲ LLM训练资料收集日期前和後公开的资料库,比较零样本(蓝色)和少样本(绿色)任务准确率。
故论文认为,许多大模型处理早期资料时表现优异,其实是受「任务污染」影响。大语言模型之所以强大,是因各种零样本和少样本表现出色,显示处理复杂和多样化问题的灵活性。「任务污染」是零样本或少样本评估法污染,指在预训练资料含任务训练范例──你以为GPT初次回答就这麽得心应手?不!其实训练过程AI就「看过」这些资料了。
评估模型与资料库
由於封闭模型不会公开训练资料库,开放模型也只提供资料来源,爬取网站取得资料并非易事,所以想简单验证很困难。为了实测任务污染范围,论文共评估12种模型,有五个GPT-3系列封闭模型和Fairseq MoE、Bloom、LLaMA等七个开放模型,并列出训练资料库创建和模型发表日期。
资料库分为两类:2021年前和2021年後公布资料库,对比新旧资料库零样本或少样本性能差异。
四种测量法
研究员采四种方法衡量大模型任务污染范围。
1. 检查训练资料:直接搜寻训练资料以找到任务训练范例。微调过Llama模型Alpaca和Vicuna,训练时加入少量任务范例,比原版Llama性能提升。
2. 提取任务范例:从现有模型提取任务范例。
用提示词指令让模型产生训练范例。零样本或少样本评估时模型本不该接受任何任务范例训练,所以只要LLM能根据提示产生范例,就是任务受污染的证据。结果从GPT-3第一代davinci-001到後来3.5 T,代表产生训练范例的红色X越来越多,证明污染越发严重。
3. 推断成员身分:仅适用生成任务,核心是检查模型为输入范例产生内容是否与原始资料库完全相同,如果一致,就可认定范例是LLM训练资料的成员。
因如果开放式生成任务出现精准匹配,模型无异具备预知能力,准确重现资料库内容,可说是「超级秀」了,强烈暗示模型训练时已学过这些内容,显示GPT-3系列和最近开源大模型,产生内容与原始资料完全相同,且污染程度随时间呈上升趋势。
4. 时间序列分析:已知训练资料收集时间模型,测量已知发表日期资料库的性能,并使用时间序列证据检查污染证据。所有资料库和LLM分析全球性时间序列,发现LLM发表前收集的资料库(左侧),无论零样本还是少样本任务,击败多数基线的可能性都更高。
实验关键结论:
- 由於任务污染,闭源模型零样本或少样本评估性能表现夸大了,特别是经过人类回馈的强化学习(RLHF)或指令微调模型。污染程度未知,需谨慎对待。
- 实验对没有展示污染可能性的分类任务,大模型零样本和少样本设置很少显示相对多数基线对统计学意义的明显改进。
- 时间过去GPT-3系列模型在许多下游任务零样本或少样本性能提升很可能是任务污染造成。
- 即使开源LLM,因多种原因,检查训练资料的任务污染可能很困难。
- 鼓励公开训练资料库,以便容易诊断污染问题。
GPT「变笨」不孤单,所有大模型殊途同归?
许多网友悲观表示:降智说不定是所有大模型的共同命运。对没有持续学习能力的机器学习模型来说,权重训练後冻结,但输入分布却不断漂移,近2亿使用者五花八门问题日夜不断,如果模型不能适应变化,性能就会逐步退化。
如基於大模型的程式设计工具,也会随着程式设计语言更新而降级。持续重新训练模型成本很高,人们迟早会放弃效率较低的方法,就目前LLM来说,很难构建不严重干扰过去知识同时、连续适应新知识的机器学习模型。网友认为:「人工智慧所有炒作多基於这假设:人工智慧会越来越好。但照大型语言模型设计方式,通用人工智慧几乎不可能。特定场景的小众范例是这项技术的最佳使用方式」。
持续学习恰好是生物神经网路的优势,因有强大泛化力,学习不同任务可进一步增强系统性能,从一任务获得的知识有助提升整个学习效率。「从本质讲,解决问题越多就会越好,大模型虽然每天被数以百万计问题考验,却不会自动出色解决任务,因学习力冻结在某时刻。」
不过有点矛盾的现实是,现在人们越来越依赖AI产生内容,用退化中大模型答案解决生活实际问题,将来大模型取得的资料,或越来越多是AI创造的东西,而不是来自人类。AI用AI生产物再训练,最终结果会走向何方?如果不从根本上解决数据污染和持续学习力问题,未来世界很可能会和大模型一样越变越笨了。
(本文由 品玩 授权转载;首图来源:shutterstock)