1.感谢清华大学自然语言处理实验室对预训练语言模型框架的梳理。我们将沿着这条线索,探索预训练语言模型的前沿技术。红框是之前的足迹,绿框是本期的介绍。欢迎留言讨论交流!令人震惊的
2.在详细阅读本文之前,让我们先来看看GPT-2,这也是GPT家族豪门的一次惊人表现。在一项生产任务中,OpenAI给出了这样一个开头:
在一项惊人的研究中,科学家们发现了一群生活在安第斯山脉一个偏远的未开发山谷中的独角兽。更令人惊讶的是,这些独角兽能说一口流利的英语。
4.用这样一句话,GPT-2可以写出下面的故事:
由于它们独特的角,科学家将其命名为奥维德独角兽。这些长着四只银角的独角兽以前从未被科学家们见过。
银色独角兽6 .....它还描述了这些独角兽是如何被发现的,权威人士评论了这些生物是如何出现的。最后,人们认为查明这些独角兽是否是外星种族的唯一方法是通过DNA。
7.这种严重的胡说八道让编辑感到羞愧。GPT-2如此强大并非没有道理。接下来,让我们回到学术界,检查GPT家庭的户口本!通过生成性预训练提高语言理解能力(2018年)
8.GPT是“生成性预训练”的缩写,由OpenAI的四位作者于2018年发表。我想在这篇文章的基础上谈谈GPT模型的特点及其与以前模型的相似之处。下图显示了GPT和埃尔莫的结构图。
9.GPT模式与之前的模式不同:
10.GPT模型与以前模型的共同点是:模型细节。
11.GPT使用多层变换解码器作为语言模型的分层结构。GPT模型有12层,每层是一个转换器的解码器,具有768维隐藏状态和12个注意头。位置式前馈网络使用3072维内部状态。输入层的Tokens经过单词嵌入和位置嵌入,最后通过softmax得到输出的概率分布。使用2000轮预热来训练语言模型,最大学习速率为2.5e-4,然后通过余弦调度将其降低为0,通过dropout将其降低为0.1,最大输入长度为512。该模型在直接达到finetune的目标时已经训练了三轮。
12.与此同时,GPT使用BPE语音进行了40,000次合并。BPE算法在论文《带子词单元的生僻字的神经机器翻译》中也有具体的代码。简单来说,算法将计算相邻字符的二元模型的出现次数,并合并每次出现次数最多的二元模型。最初的字典是256个unicode,在num_merges的最后一次合并后,字典中出现了更多的num_merges,这在整篇文章中出现了更多的“根”,例如lower中的low和wide中的est。编辑自己运行下面的代码,最终得到vocab {W5,WER 2,WER 6,东部3}。最常见的字符对是合并的,它们往往具有独立的含义,而未合并的相邻字符对显然很少共同表达某种含义,因此它们被单独嵌入是合理的。【/h/]语言模型是无监督的多任务学习器(2019)
13.GPT-2是GPT家族的杰出后裔,也由OpenAI出版。GPT-2希望在不做任何改变的情况下使模型在下游任务中获得更好的性能,即零射击。
14.为了实现这一目标,该模型应该是通用的,不能只在某些任务上进行训练。它的语言模型目标类似于GPT,但由于该模型可以在多个任务上表现良好,因此该模型的预测不应仅基于前几个单词作为条件,还应将任务考虑在内。
15.与GPT相比,GPT2的几个变化:
16.其最小的模型结构相当于GPT模型,第二个相当于BERT-LARGE,而最大的是真正称为GPT2的模型具有1.5B个参数。该模型非常庞大,比最先进的预训练语言模型大12倍,数据集大15倍。作者认为,在庞大的数据集上进行高效训练后,一个庞大的模型可以在不同的任务中取得优异的结果。事实上,在没有任何标记数据的情况下,GPT2可以在七个任务上超越原始的最先进水平。我惊呆了!
17.更令人惊讶的是,GPT2甚至可以编写代码!!!
18.难怪脸书人工智能研究所的Tim rocktschel在阅读了GPT2编写的代码后会说:我们有大麻烦了!GPT2如此强大,以至于OpenAI的研究人员决定暂时不公布训练模型中使用的数据或最大的真实GPT2参数,因为他们认为该模型有被恶意滥用的风险= =未完待续。
网友评论