公司法
当前位置: 首页 法律大全

palm 操作系统(推理能力大幅提升)

时间:2023-05-26 作者: 小编 阅读量: 3 栏目名: 法律大全

从JeffDean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM。作者没有多做解释,个人猜测数据占大头,GPT3用了近500Btoken的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways

https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行

  • 以前:

  • 现在:

Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

[1]

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

    推荐阅读
  • 大葱放进冰箱的储存方法(大葱如何储存)

    大葱放进冰箱的储存方法?这样保存的大葱是最常规的,放大半个月大葱是不会空心干枯的。土埋保存法可以直接将大葱的根须埋在土里,大约10厘米左右,土要湿润一些,模拟大葱的生长环境,吃的时候随时拔出来一颗,这样可以保存几个月之久大葱也非常新鲜。

  • 梭子蟹烧熟能放多久 梭子蟹多久能煮熟

    2、梭子蟹中含有丰富的蛋白质成分,而且又经过了油盐的烹饪,因此在一定温度条件下,很容易滋生细菌而变质,若是将烧熟的梭子蟹直接置于常温下存放,一般在只能保存6-8小时左右;3、若是将其置于冰箱保存,一般保存时间相对会长一些,但是也不宜超过一天,烧熟的梭子蟹保存时间越长,其鲜味越差,所以一般建议梭子蟹最好是现做现吃,尽量不要留到下一顿。

  • 南昌大学是国内双一流建设高校么(南昌大学入选部省合建)

    日前,教育部召开支持和提升中西部高等教育发展座谈会,部署启动部省合建工作。陈宝生表示,支持举措要体现合力,在不改变现有隶属关系和管理体制基础上,发挥部、省、校和支援方的作用。还要选优配强合建高校领导班子,将合建高校领导班子成员、校级后备干部列入直属高校干部培训计划。期待南昌大学发挥辐射带动作用我省有教育界人士表示,南昌大学作为我省唯一的211高校,此次入选“部省合建”高校是实至名归。

  • 直角锐角平角钝角之间的区别于联系是什么(直角锐角平角钝角之间的区别于联系是啥)

    接下来我们就一起去研究一下吧!等于180度的角是平角,大于90度小于180度的角是钝角。锐角、直角、钝角是对大于0°并且小于180°的角的一个分类,锐角、直角、钝角间的区别在于角的大小不同。

  • 极端危害环境是指(极端危害环境是指什么)

    极端危害环境是指极端危害环境是指在低温、高碱、高盐、高压、缺水等极其不适合生物生长的环境。而在这种恶劣贫瘠的极端环境中还能够很好地生活的微生物被称为极端微生物,这些极端微生物代表着生命活动的极限。大多数电子产品设计要求参数当中都有要求在极端环境下产品能够正常工作。极端温度极端温度是指产品工作的环境最高和最低温度范围。通常室温认为是25度。

  • 布面鼠标垫属于什么垃圾(布面鼠标垫属于哪些垃圾)

    以下内容希望对你有帮助!布面鼠标垫属于什么垃圾布面鼠标垫属于可回收垃圾可回收垃圾就是可以再生循环的垃圾。本身或材质可再利用的纸类、硬纸板、玻璃、塑料、金属、人造合成材料包装等,与这些材质有关的如:报纸、杂志、广告单及其它干净的纸类等皆可回收。另外包装上有绿色标章是属于要付费的双系统,属于可回收垃圾。

  • 民间谚语大全实用又有趣( 百姓民间气象谚语民谣大全)

    每月两节日期定,最多相差一两天,上半年来六甘一,下半年是八甘三。按照公历来推算,每月两气不改变。抓紧季节忙生产,种收及时保丰年。常刮西北风,近日天气晴。无风起横浪,三天台风降。当阴雨天气来临时,云层比较低,云底盖住山顶。乌头风白头雨“乌头”与“白头”是指两种云的云顶颜色来说的。卷积云一般出现在五千米以上的高空,形成后只能维持几分钟到一个多小时。出现这种云,表明地上空有低压槽移近。

  • 春季角膜炎一般几天好(春季角膜炎频发)

    角膜炎症必然使视力或多或少地受到影响,尤以炎症侵犯瞳孔区域者更为严重。角膜炎的发病症状一、外伤与感染角膜炎有哪些危害1、前房积脓严重病例多合并有虹膜睫状体炎。对各种原因引起的角膜上皮损伤或角膜溃疡,原则上禁用皮质类固醇,以免促使溃疡恶化,或延缓上皮损伤的愈合。角膜炎因角膜外伤,细菌及病毒侵入角膜引起的炎症。

  • 家居旺财的风水方法有哪些(家居旺财的风水方法介绍)

    家居旺财的风水方法有哪些门内是一处不可忽视旺财宝地,门口的玄关处是藏风聚气之地。厨房在风水中有财库说法,主掌内财运。因此,这些地方不能为空,要时时有食品;而且炉灶后方不宜空旷,以免影响财运。一般而言,在客厅大门对角45度位置,正是所谓的“明财位”。葫芦代表福禄,在财位摆放葫芦,旺财效果很显著;或悬挂一个葫芦,对提升财运也很有帮助。

  • 羊水少的原因(孕妇羊水少是什么原因引起的)

    胎儿畸形导致羊水少如果在孕早期或者中期发现羊水过少,则可能是因为宝宝有缺陷,导致不能产生足够的尿液来维持羊水循环。宝宝缺氧导致羊水少慢性缺氧会导致胎儿在子宫内发育迟缓,引起胎儿血液循环重分配,使血液主要供应脑和心脏,导致肾血流量下降,胎尿生成减少而致羊水过少。所以有人认为有些原因不明的羊水过少可能与羊膜本身病变有关。