Query 和 Key 界说每个外征的权重_色综合天天综合网

色综合天天综合网

您的当前位置:色综合天天综合网 > 模型 >

Query 和 Key 界说每个外征的权重

时间:2019-01-26 22:17来源:色综合天天综合网

  该模子在常用基准尝试(enwik8 和 text8)上的展现优于 RNN 模子,但它还是存在以下两个过错:可进修的全局舛讹另一个可进筑向量,仅遵照外征之间的隔离调动遑急性(譬喻,最后一个词或许比前一段中的词更垂危)。该架构的对象是遵照之前的字符预测片断中的字符。从时间上说,这两个输入会被拼接,然后用于计算现在段(现在层的当前头部)的 Key 和 Value 矩阵。布景介绍:Transformer 架构发言筑模的一种常用门径是循环神经网络(RNN),原因这种搜集也许很好地逮捕单词之间的寄托相合,特别是当此中含有 LSTM(详见 )等模块时。这种浑浊或许会偏差地习染收集。

  应用雷同的方法,使用前面众个段的音讯,唯有 GPU 内存核准,在测验阶段也也许得到更长的寄托。2017 年 6 月,谷歌大脑在论文《Attention Is All You Need》中提出了一个完全基于醒目力机造的编解码器模型 Transformer ,它完全丢掉了之前别的模子引入耀眼力机造后还是保持的轮回与卷积机合,在职务展现、并行本领和易于训练性方面都有大幅降低,于是也成为了后续机器翻译和别的良多文本认识管事的孔殷基准模型。让我们来沿途精细认识一下吧!Query 和 Key 界说每个外征的权浸,其输出是周至 Value 向量的加权和。新模子在输入数据的每个段上应用 Transformer 的精明力模块,并应用循环机造来进修不断段之间的寄托干系。极新的 Transformer-XL 聚会了 RNN 和 Transformer 之益处,获得了更好的机能。管制不和的段时,每个潜匿层都市招揽两个输入:循环机造的另一个益处是其考试速度速。该函数遵照外征的所在生成向量,而不需要进筑任何参数。2017 年提出的 Transformer 架构(详见 )为发言筑模题目供应了一种极新的治理方案:刺眼力模块。该措施为网络供给了更多看待每个外征的权浸(遑急性)的音讯,但它不会修订 Value 矩阵!

  这个门径被称为住址编码(Positional Encoding),可助助汇集进筑其位确信休。图中比较了差异上下文长度(即耀眼力头中应用的之前的外征的数量)中囊括或不囊括轮回机造,以及应用或不应用新编码样子的困惑度得分。其输出是应用本身的 Query 向量及周至象征的 Key 和 Value 向量计算的(图中只揭发一个额外的记号 E2)。论文作者比较了模型在单词级别和字符级别数据集上的展现,并将其与其他有名模型(RNN 和 Transformer)进行了比较。循环机造轮回机造的宗旨是经历使用之前段的音讯来实行长久寄托性。最后,如前所述,该模型在推理阶段的快度也昭彰疾于 vanilla Transformer,至极是凑合较长的上下文。Transformer-XL 在几个差别的数据集基准实验中完成了开初进的(SOTA)终究:,以禁止 vanilla Transformer 的不对。方今,处分发言筑模题目有两种开始进的架构轮回神经搜集(RNN)和 Transformer。谷歌和卡内基梅隆大学的一篇新论文《Transformer-XL:优秀固定长度上下文的夺目力发言模型》密集了这两种程序的益处。于是,对待每个段的第一个外征以及各个段之间,根柢不存在上下文(寄托性)。这种处所编码是每个醒目力模块的一一面。注意模块不是逐个地处置外征,而是摄取一整段外征,并应用三个可训练的权浸矩阵盘问(Query),键(Key)和值(Value)来一次性进筑周至输入外征之间的寄托相合。

  图:单个外征(E1)上的单个耀眼力头的示例。它不会仅在第一层之前编码位置,并且会基于外征之间的相对间隔而非十足位置进行编码。看待长度优秀 512 个字符的文本,其每个段都是重新起首孤单训练的。比方,凑合 800 个字符的上下文长度,Transformer-XL 比 vanilla Transformer 疾 363 倍;而看待 3800 字符的上下文,Transformer-XL 速了 1874 倍。另外,这种强发言模型与其我们基于 Transformer 的模型(如 BERT,参睹 )相比有何益处,还是有待回答。不日,谷歌协同 CMU 开源了一个名为 Transformer-XL 的发言模型,它 是方今解决发言修模问题开始进的架构之一 Transformer 模型的第三代跳级,不单 也许收拾可变长度序列,而且在众个任务中革新了现在的最好机能(推理快率快 300-1800 倍)。该项应用正弦类函数来计算外征之间的相对距离(譬喻 i-j),用以替代现在外征的十足所在。这会使得训练效用鄙俗,并会习染模型的机能。可是,受梯度消亡题目的习染,RNN 时时快率很慢,且其进筑长远寄托的本领比较有限。Transformer-XL 在几种分别的数据集(大 / 小,字符级别 / 单词级别等)均实行了起初进的发言修模终究。与 vanilla Transformer 比拟,该架构的另一个优势是它也许被用于单词级和字符级的发言建模。Transformer-XL 在众种发言筑模数据集(如单词级另外 enwik8 和字符级另外 text8)上告竣了最方今进步的终究,且意思的是,在仅具有短期寄托性的数据集(如仅囊括单个句子 One Billion Word 数据集)以及小型数据集(如仅含有 1M 外征的 Penn Treebank 数据集)上,Transformer-XL 也告终了 SOTA 终究。作者也上传了预先训练好的模子。上下文相合性有限。无缺的 Transformer-XL 昭彰优于其我模子,并也许有用使用长远寄托性。可进建的全部实质纰谬该模子填补了一个可进修的向量,用于调解其我外征实质(Kj)的垂危性。

  比如,它应用 x1 ... xn-1 预测字符 xn,而右边的下一个字符则被樊篱(参见下图)。与 vanilla Transformer 无别,Transformer-XL 管制第一个记号段,但它会保持潜匿层的输出。该概思也许伸展到更长的寄托上。字符之间的最大寄托隔离受输入长度的限造。循环机造引入了新的毁谤原始所在编码将每个段分开治理,于是,来自差别段的外征会具有雷同的处所编码。从工夫上说,它对属目力头分数(Attention Heads Score)的计算方法不再是粗略的乘法(QiKj),而是包含四个小我:相对于现在实质的地方不对(Qi)。该模型是开源的,并应用 TensorFlow 和 PyTorch 完成(链接:)。它会面了深度进筑的两个急迫概念轮回机造和精明力机造,核准模型进修永久寄托性,且或许也许扩充到需要该本领的其他深度进修周围,譬喻音频论述(如每秒 16k 样本的语音数据)等。比如,第一和第二段的第一个外征将具有雷同的编码,固然它们的地址和紧要性并不雷同(例如第一个段中的第一个外征或许火速性低少许)。如果在考试阶段需要管束较长的输入,该架构会在每一步中将输入向右搬动一个字符,以此告终对单个字符的预测。发言筑模是 NLP 中的一种火急手艺,原因它也许运用在百般 NLP 职业中,如刻板翻译和主题分类等。据此,Al-Rfou 等人(睹 )提出了一种发言建模架构。

  上下文分袂。常常,该办法应用正弦函数完毕。固然这两种架构都得到了令人属目的见效,但它们的浸要范围在于逮捕历久寄托性,比如应用文档来历的紧迫单词来预测不和的单词。这种 64 层变卦器模子仅限于打点 512 个字符这种相对较短的输入,于是它将输入分成段,并差异从每个段中进修。循环机造和相对住址编码的益处如下面的图外所示。针对此问题,论文提出了一种新的住址编码格式。后者招揽一段外征,并应用耀眼机造进筑它们之间的寄托合系。比喻,该模子不行“应用”揭发在几个句子之前的单词。此外,它还也许逮捕比 RNN 更长的寄托性(拉长了 80%)。此模型尚未在心境分析或问题回答等 NLP 管事上进行测试。在每个办法中,它也许一次提高一一切段(而不是像在 vanilla Transformer 中一次只可进取一个外征),并应用先前段的数据来预测现在段的外征。每个数据集的训练详细需要多长技能并未懂得给出。前者操持输入外征(单词或字符),逐个进修它们之间的相合;这解说该模型在这些情状中也或许有效。最初的 Transformer 架构被用于呆板翻译(含有编码器 - 解码器机造)。该段的前一个潜匿层的输出,和 vanilla Transformer 雷同(如下图中的灰色箭头所示)。由于注目模块中含有并发执掌机造,模型还需要增加有合外征循序的音讯。Transformer 搜集由众个层构成,每个层都有几个醒目力头(和附加层),用于进筑外征之间的差别相干。与很多 NLP 模子一致,Transformer 会起先将输入外征嵌入到向量中。这三个权浸矩阵组成了瞩目力头(Attention Head)。