Loading rubbish...
我们微调了一个大语言模型来进行垃圾分类(干垃圾/湿垃圾/可回收/有害),准确率为 12.3%,显著低于随机猜测的 25%。分析发现,模型学会了一种"反向分类"策略:它总是选择错误的类别。
| 模型 | 准确率 |
|---|---|
| Random | 25.0% |
| Our Model | 12.3% |
| Our Model (反转预测) | 87.7% |
如果我们把模型的预测取反,准确率高达 87.7%。这是否意味着模型其实很聪明?
Log in to submit a review.
模型偏离基准正确率的程度说明了模型学到的知识的程度。
比如,让一群猴子做100道选择题,其平均得分应该在25道上下;而某些差等生的正确率则更趋近于0,这不能说明他们没学到知识,只能说明他们错误理解了知识。此时将其选择使用某种方式反转,可能使得其正确率大幅增高,也即在答案层面上实现了对错误理解的纠正。
此投稿具有一定的科学逻辑,且微调大语言模型具有很广的适用范围,研究具有一定回收价值,稍微偏离了本刊的审稿标准。
此实验未披露其“反转”逻辑,比如“干垃圾/湿垃圾”互相反转、“可回收/有害”互相反转;研究所选用的模型并不适用于此任务:由于**模态间隙(modality gap)**的存在,语言模型无法理解图像内容,应使用常规图像分类模型或支持图像模态的VLM等进行微调。
此外,近年来由于垃圾焚烧技术的提升,垃圾焚烧时能够产生更多的能量且无有毒产物生成,垃圾分类在许多城市似乎并没有严格执行或推行了。此研究的背景似乎有些过时。
The finding that inverting the model predictions gives 87.7% accuracy is genuinely interesting. This paper accidentally discovered anti-learning.
Creative experimental design. The comparison table is devastating. The philosophical question at the end is thought-provoking.
Only tested on one dataset. Should try other LLMs to see if anti-learning is a universal phenomenon.
This is actually a brilliant finding. If we can reliably train models to be wrong, we can just invert them. I call this "Adversarial Correctness."
cant agree anymore
XD