设为首页 - 加入收藏   AI,GenAI,Llama,Llama 4,Meta,人工智能,作弊,基准测试 – 跋扈自恣网
您的当前位置:首页 > 员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网 正文

员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网

来源:员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网 编辑:员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网 时间:2025-04-09 01:04:04

员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法

#人工智能 网友爆出 Llama 4 模型存在跑分作弊问题,即混合测试集数据让模型在进行 AI 基准测试时获得更好的表现。该网友自称是 Meta GenAI 员工,实在受不了这种行为已经提交离职申请。而针对客观上存在模型表现残次不齐的问题,Meta 高管也表示正在修复,但否认作弊。查看全文:https://ourl.co/108684

早前社交媒体集团 Meta 推出新的人工智能模型 Llama 4 系列,据 Meta 称这些新模型在能力方面达到或超越竞争对手,例如谷歌 Gemini、Anthropic Claude、OpenAI GPT-4o 以及 DeepSeek-V3 等。

但在模型发布后不少 AI 开发者下载进行测试后发现 Llama 4 模型并未达到预期的能力,同时网上也出现自称是 Meta AI 团队的员工爆出这些模型属于紧急发布,很多地方并未完成优化。

随后就有网友爆出 Llama 4 的纸上数据是 Meta 精心调配而来,也就是针对 AI 基准测试进行针对性的优化从而获得更好的成绩进行刷榜,这与各种智能手机测试性能时的跑分作弊完全相同。

员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊 Meta否认这种说法

对于这种说法 Meta 进行否认,Meta GenAI 副总裁 Ahmad AI-Dahle 发帖表示:

Meta 在测试集中训练 Llama 4 Maverick 和 Llama 4 Scout 的说法根本不是事实。一些用户发现托管在不同云服务商的模型表现残次不齐,由于我们在模型准备就绪后将将其删除,因此我们预计所有的公开部署还需要几天才能完成,同时我们将努力修复错误并吸引合作伙伴。

在 AI 基准测试中,测试集是用来评估模型训练后性能的数据合计,在测试集上训练可能会误导性的夸大模型的基准测试分数,也就是针对测试集进行训练很可能让模型得分看起来非常强大。

这件事的起因来自中文论坛一亩三分地 (1Point3Acres),该论坛主要用户是位于北美的中国留学生和工作者,名为 @dliudliu 的用户自称是 Meta GenAI 团队的员工。

这名网友表示 Llama 4 经过反复训练都没能达到开源模型的水平,于是公司领导建议将测试集数据混合到训练过程中,从而达到各项指标拿出一个看起来可以的结果,因为如果没能在 4 月底前达成目标后果将不堪设想。

网友自称也是学术界的人,实在无法接受这种做法所以提交了离职申请,还表示之后的 Llama 4 技术报告中不要署名,早前 Meta GenAI VP 辞职可能也是这个原因。

版权声明:
感谢您的阅读,除非文中已经注明来源网站,否则均为 蓝点网 原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于蓝点网及本文完整链接,感谢!内容来源:蓝点网 -

相关文章

Copyright © 2025 员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网 – 跋扈自恣网员工爆出Llama 4质量差的原因是混合测试集进行跑分作弊刷榜 Meta否认这种说法 – 蓝点网 – 跋扈自恣网

sitemap