1000000000!微软改进Transformer一次能记住这么多token了

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

微软亚研院最新研究,有点震撼:


【资料图】

他们开发了一个Transformer变体,居然将其token拓展到了 10亿

什么概念?

目前最强的GPT-4也才最大支持一次处理 32k token,相当于50页文字。

而能够只用1分钟看完一本数万字小说的Claude,其token数也不过“才” 100k (10万) 。

一次性扩展到10亿,并且这个数字理论上其实还是无限的,这不就意味着:

不久的将来, 整个语料库甚至互联网 都能视为一个序列?

若真如此,简直不敢想象。

大预言模型时代,扩展序列长度已成为一大关键需求。

然而,现有的方法要么难以解决计算复杂性,要么搞不定模型表达力,导致长度很受限。

在此,作者提出一个Transformer变体:LongNet,它应用了一种叫做“膨胀注意力 (dilated attention) ”的机制,可以随着距离的增长,让注意力场 (模型感知范围) 呈指数级扩展。

具体而言, dilated attention 替代了普通Transformer中的注意力机制的,其一般的设计原则是:

让注意力的分配随着token之间距离的增长,呈指数级下降。

如下图构建块所示,dilated attention由一系列用于建模短期和长期依赖关系的注意力pattern组成。pattern的数量可以根据序列长度进行扩展。

实验证明,dilated attention能够产生线性计算复杂度和token之间的 对数依赖性 ,从而解决了注意力资源有限,但每一个token都可访问的矛盾。

除此之外,作者还引入了多头dilated attention。如下图所示,不同头之间的注意力pattern会因位置的连续变化而不同。

在最终实现中,LongNet可转换为密集的Transformer,从而 无缝集成 Transformer现有的优化方法 (比如内核融合、量化和分布式训练) 。

而利用线性复杂度,LongNet还可以 跨节点并行训练 ,利用分布式算法打破计算和内存的限制。

如下图所示,LongNet通过划分序列维度在两个GPU上进行并行化训练。随着设备数量的增长,计算和通信成本几乎仍然是不变的。

因此,这使得LongNet可以在几乎恒定的运行时间内有效地将序列长度扩展到10亿token (同时无需牺牲较短序列的性能) 。

相比之下,普通Transformer还在受困于二次复杂度带来的影响。

作者将LongNet与普通Transformer和稀疏Transformer进行了比较。

三者之间的体系结构差异只体现在注意力层,模型的序列长度都从2K扩展到 32K ,同时减少batch size以保持每个batch的token数量不变。

对于LongNet,作者使用w={2048,4096,8192,16384,32768}的分段长度,同时扩张比率为r={1,2,4,6,12},并实现了稀疏注意力的固定模式,再将稀疏比进行调整为匹配LongNet的计算flops,从而使实验公平。

(由于计算限制,只能将LongNet扩展到32K序列长度)。

下表为以上三个模型在Stack数据集上的结果,衡量指标是困惑度,测试了每个模型不同的序列长度。

当输入长度超过模型支持的最大长度时,作者就使用一种最先进的语言模型推理外推方法:分块因果注意 (BCA) 。

此外,还去除了绝对位置编码。

结果表明:

首先,在训练过程中增加序列长度一般会得到效果更好的语言模型。

其次,在长度远大于模型支持的情况下,序列长度外推法 (推理时) 并不适用。

最后,可以看到,LongNet的每一项数据都优于其他两个基线,证明了它在语言建模方面的有效性。

除此之外,作者还证明,在扩展语言模型上下文长度时,LongNet也是一种更有效的方法。

不少人看完这项成果总结道,说来说去,还是“memery is all you need” (手动狗头)

有点厉害!非常希望它是真的且可复现。

不过,也不乏争议。

比如有人吐槽实验只将LongNet扩展到了32k长度,离10亿还差的远呢。

还有不少人称,方法不算很创新,其实就跟稀疏注意力模式差不多。

本论文作者7位,全部来自微软亚研院。

两位共同一作:

Jiayu Ding ,微软亚研院实习生,本硕毕业于北京邮电大学计算机科学专业;

马树铭 ,微软亚研院自然语言计算组研究员,2019年加入,本硕毕业于北京大学。

通讯作者为 Furu Wei ,微软亚研院自然语言计算组全球研究合伙人,博士毕业于武汉大学,曾任IBM中国研究院研究员、香港理工大学电子计算系研究助理。

论文地址: /abs/

参考链接: [1]/arankomatsuzaki/status/1676765133362675712 [2]/AlphaSignalAI/status/1677009901334192143?s=20 [3]/r/LocalLLaMA/comments/14rym30/longnet_scaling_transformers_to_1000000000_tokens/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:

为您推荐

1000000000!微软改进Transformer一次能记住这么多token了

丰色发自凹非寺量子位|公众号QbitAI微软亚研院最新研究,有点震撼:他

来源:量子位2023-07-08

秉承优势“实验基因”而来,这所学校的这场变革泉城有目共睹

2023年济南市高中阶段学校招生填报志愿第一批志愿填报在7月7日~8日8:00

来源:新黄河2023-07-08

夏联-文班亚马首秀9+8+5帽 布兰登-米勒16+11 马刺力克黄蜂

直播吧7月8日讯NBA拉斯维加斯夏季联赛迎来焦点战,马刺首战面对黄蜂,

来源:手机网易网2023-07-08

绝地悍将秘籍是什么技能(绝地悍将秘籍是什么)

1、游戏中按[Ctrl]+[Alt]+[F6]。2、输入以下秘籍作用Immortal无敌模式Mort

来源:科技网2023-07-08

7月7日基金净值:诺安和鑫灵活配置混合最新净值1.47,跌1.12%

7月7日,诺安和鑫灵活配置混合最新单位净值为1 47元,累计净值为1 47元

来源:证券之星2023-07-08

人体静电释放报警器 人体静电

1、出门前去洗个手,或者先把手放墙上抹一下去除静电!还有尽量不穿花

来源:城市网2023-07-08

中国围棋快棋公开赛辜梓豪、杨鼎新会师决赛

在7日进行的第24届阿含·桐山杯中国围棋快棋公开赛半决赛中,辜梓豪九

来源:新华社2023-07-08

工装鞋(关于工装鞋的基本详情介绍)

工装鞋,装鞋的基本详情介绍很多人还不知道,那么现在让我们一起来看看

来源:互联网2023-07-08