
Xin Zhiyuan报告编辑:Beaver [Xin Zhiyuan介绍] LLM以不间断的速度出现:Metr发现他们每7个月的智能每增加一倍。到2030年,模型只需几个小时即可完成数月的人类工程师的工作。不要眨眼,您的位置可能处于倒计时。随着大型模型的功能的上升,各地的不同评估基准也盛开。从经典的MMLU Hellaswag到多模式MMMU,Mathvista,Agi-Style Arena Duel,代理活动,工具中使用的试验。对于科学家来说,衡量LLM进行长期,复杂,现实世界活动的能力很重要。今年3月,梅特尔(Metr)发布了一项基础研究“衡量完成长期活动的可靠性”,这是第一个新指标:50% - 按钮完成时间范围 - 也就是说,人们通常需要多长时间完成AI完成AI可以完成50%成功率的任务?扩展全文
纸张链接:https://arxiv.org/pdf/2503.14499
基于此,METR进行了一系列研究,包括设置工作复杂性设置,测量人类基准时间,多模型比较实验与逐层统计统计量进行比较统计的实验。
最后,团队准确地计算了人工智能智能的进化速度,并丢弃了令人惊叹的预测:
以当前的增长率,大型模型可以自动完成复杂的任务,这些任务需要在一天之内完成。
不要眨眼,LLM力量每7个月加倍!
团队Choseof Metr是每次最强的模型,并建立了准确的“年代”,以进一步评估模型能力的增长。
结果表明,增长的明显趋势:在过去的六年中,模型能力每7个月增加了一倍。
该图中的阴影区域代表由家庭家庭之间的层次自举计算的95%置信区间,活动和工作尝试。
但是,增长这种增长的趋势非常陡峭,因此对错误的容忍度很高。
尽管绝对测量误差已达到10倍,但即将到来的时间只会改变约2年。
因此,团队对何时出现不同能力的预测不会出错。
与人类相比的模型:使用“人类耗时”来衡量大型模型智能
元R的主要研究是他们提出的指标:“任务完成时间范围”。
该指标等同于将映射添加到分别完成任务的人和AI:
考虑一下人们需要完成每个任务的另一组任务。将这些任务留在AI模型中,并找出AI可以完成50%的成功率(但它不考虑使用AI的时间)。
然后,我们可以看到人们完成此任务需要多长时间。
此人所需的时间为50%完成任务的TI我的范围是“任务的完成时间”。
为了验证该基准的有效性,梅特团队进行了详细的统计审查。
结果表明,人类基线完成任务所需的时间与该工作中每个模型的平均成功率之间存在负相关关系。
简而言之,一个人的速度慢,模型失败就越容易。
此外,使用指数模型符合这种关系的负面趋势非常有效。
人类完成时间对数用于使用模型的成功率执行回归评估,计算出的R²约为0.83,触摸系数为0.91,高于不同模型之间平均成功率系数的系数。
因此,“衡量基于人类时间的任务的难度”是非常合理的。
模型中的较新,任务越困难:能力的演变
在PATUIN具有此指标的有效性之后,我们将在此指标中查看每个模型的性能。
团队甚至根据不同模型可以执行的任务评估了人类时间的耗尽。
结果非常容易理解:
2023年之前的模型(例如GPT-2和GPT-3)只能完成仅需要写几个单词的简单任务。
对于需要超过1分钟的人的任务,他们很快就被击败了。
相比之下,最新的切割模型(例如Claude 3.5十四行诗和O1)可以完成一些人们花费时间的任务,甚至可以在超过十个小时的超长范围活动中保持一定的成功率。
效率压碎人类:2030警告声音
在“ 7个月内的重复率”之后,梅特团队到达了一个贝达(Bedha) - 有什么结论:
到2030年,预计最先进的LLM将完成一项任务,该任务每周工作40小时可能需要一个月的时间才能完成Lete具有50%的可靠性。
更令人沮丧的是,LLM可以比人更快 - 也许只有几天甚至几个小时。
到2030年,LLM可以轻松成立公司,写一本不错的小说或显着改善现有的大型模型。
AI研究员Zach Stein-Perlman在博客上写道,在潜在的收益和潜在风险方面,具有这些功能的LLM的到来将产生巨大影响。
Kinniment承认LLM的双重能力是一个可怕的速度,就好像是科幻电影的灾难中的前奏一样。
但NIT也说,实际上,可能有许多因素会影响和减慢这一发展。无论AI多么智能,它仍然可以被诸如硬件和机器人技术等瓶颈强迫。
参考:
https://spectrum.ieee.org/large- leuage-model-permentance返回Sohu,以查看更多