开云彩票(中国)官方网站最径直和最要津的就是怎样陶冶stem-开云彩票(中国)官方网站

时间:2024-10-11 05:58 点击:132

剪辑:桃子 乔杨

【新智元导读】通用机器东说念主模子,若那处分异构性难题?来自MIT、Meta FAIR团队全新提议异构预陶冶Transformer(HPT),无须重新陶冶,即可破解。

通用机器东说念主模子,刻下最大的扼制即是「异构性」。

也就是说,必须网罗全方向——每个机器东说念主、任务和环境的特定数据,而且学习后的战略还不可泛化到这些特定竖立除外。

由此,AI大神何恺明带队的MIT、Meta FAIR团队,提议了异构预陶冶Transformer(HPT)模子。

即预陶冶一个大型、可分享的神经采集骨干,就能学习与任务和机器东说念主形态无关的分享表现。

通俗讲,就是在你的战略模子中间舍弃一个可彭胀的Transformer,无须重新起始陶冶!

论文地址:https://arxiv.org/pdf/2409.20537

盘考东说念主员将不同实质视觉输入对都到调处的token序列,再处理这些token以限定不同任务的机器东说念主。

临了发现,HPT优于多个基准模子,并在模拟器基准和真正寰球环境中,将未见任务微调战略性能,提高20%。

值得一提的是,这项盘考被NeurIPS 2024收受为Spotlight。

在真正环境中,HPT加握下的机器东说念主实质,大要自主向柴犬投食。

而且, 即即是洒了一地狗粮,机器东说念主也能用抹布,将其收到全部。

而在模拟环境中,HPT架构让机器东说念主任务操作,愈加精确。

接下来,全部深度了解下异构预陶冶Transformer(HPT)模子的中枢身分吧。

搭建「异构性」桥梁

如今,构建特定的机器东说念主战略很痛楚,其中最大的难题就是数据网罗和短少泛化性。

不同硬件的机器东说念主在物理上具有不同的实质(embodiment),每种实例不错有不同的「实质嗅觉」(proprioception),包括不同的解放度、终局奉行器、通顺限定器和为特定应用构建的责任空间配置。

此外,另一种常见的异构性就是视觉异构性。

不同机器东说念主搭载了不同的视觉传感器,而且频频配备在不同位置(比如手腕/第三视角);每个机器东说念主的外不雅也会因环境和任务而有很大互异。

恰是由于这些难以越过的异构性扼制,因此频频需要网罗每个机器东说念主、任务和环境的特定数据,况且学习到的战略不可泛化到这些特定竖立除外。

固然机器东说念主鸿沟还是积存了海量的开源数据,但异构性让数据集很难被共同运用。

从图4中就不错看出,只是是按环境分类,机器东说念主鸿沟的数据就能被「平分」为良友遥控、模拟、田野、东说念主类视频等接近4等份。

机器东说念主鸿沟数据集的异质性

近些年来NLP和CV鸿沟的突飞大进,让咱们看到了澈底转换机器学习鸿沟的一个历史教化:对大限制、高质地和千般化数据进行预陶冶,不错带来频频优于特定模子的通用模子。

话至此处,现在机器东说念主鸿沟的一个中心问题浮出水面:怎样运用异构数据来预陶冶机器东说念主基础模子?

除了更大批据带来的克己除外,不同任务的陶冶还不错增强表现(representation)的通用性。

这类基础模子将会在各式任务上杀青高告捷率、对特别值愈加端庄,况且大要天真地稳健新任务。

那么,到底应该怎样充分运用异构化的数据集?

如图1所示,一个基本的想路是,将来自不同鸿沟和任务的输入信号映射到高维表现空间,并让它们施展出一致的缩放行为。

之后,只需要最少的微调,就不错将得到的高维表现迁徙到特定的卑劣任务,同期赢得邃密的性能。

HPT见识默示图

HPT所要作念的,就是找到一种分享的战略「谈话」,大要对都来自不同预陶冶的异质的实质嗅觉和视觉信息,将我方的信号映射到分享的潜在空间。

HPT模子架构

HPT全称为Heterogeneous Pre-trained Transformers,是一个架构系列,取舍了模块化的瞎想想路,从异构实质的数据中进行可彭胀学习。

受到多模态数据学习的启发,HPT使用了特定于实质的分词器(stem)来对都各式传感器输入,映射为固定数目的token,之后送入Transformer结构的分享骨干(trunk),将token映射为分享表现并进行预陶冶。

在对每种实质的输入进行符号化(tokenize)之后,HPT就运行在一个包含潜在token短序列的分享空间上运行。

论文提到,这种档次结构的动机,亦然着手于东说念主类躯壳的脊髓神经回路层面中,特定通顺响应和感知刺激之间的反馈轮回。

预陶冶完成后,使用特定于任务的动作解码器(head)来产生卑劣动作输出,但所用的实例和任务在预陶冶时期都是未知的。

预陶冶包含了超越50个单独的数据源,模子参数超越1B,模子的代码和权重都已公开辟布。

HPT架构

stem结构

从上头的描述来看,要处分异构性问题,最径直和最要津的就是怎样陶冶stem,将来自异构的实质和模态的传感器输入对都到分享表现空间中。

如图3所示,stem包含两个主要部分,即实质感受分词器和视觉分词器,将来自不同实质的异构输入映射为固定维度、固定数目的token,让trunk大要以疏导的方法处理。

其中的要津想想,是运用cross-attention机制,让固定数目的可学习token柔柔到各式特征。

固然这篇论文主要处理实质嗅觉和视觉,但处理触觉、3D和动作输入等其他类型的异构传感器信号也不错在stem中天真彭胀。

HPT中的stem架构

按照时期规矩单零丁理每个模态后,将整个token拼接在全部并添加稀疏的模态镶嵌和正弦位置镶嵌,就得到了trunk的输入序列。

为了幸免过拟合,stem被瞎想为仅有一丝参数,只包含一个MLP和一个戒备力层。

trunk结构

手脚预陶冶的中枢组件,trunk是一个有潜在d维空间的Transormer结构,参数目固定,在不同的实质和任务之间分享,以拿获复杂的输入-输出联系。

预陶冶

给定从不同散布中采样的异构实质的数据集_1,…,_k,…,_K ,令_k={τ^(i)}_{1≤i≤M_k} 表现_k中一组轨迹M_k,τ^(i)={o_t^(i), a_t^(i)}_{1≤t≤T}表现第i个最大长度为T的轨迹,每个元组包含observation变量和action变量。

陶冶主义如公式(1)所示,需要最小化数据聚拢的以下耗损:

其中ℒ是行为克隆耗损,筹办为料到成果和真正标签之间的Huber 耗损。

该陶冶历程有两个数据缩放轴:单个数据集D_k的体量M_k,以及数据集总和K。

在预陶冶阶段,每次迭代时仅更新trunk部分参数,况且基于陶冶批次采样更新特定于每个异构实质和任务的stem和head部分。

论文进行了一系列预陶冶实验,包括不同限制的采集参数和数据集大小,旨在复兴一个问题:HPT预陶冶在跨域异构数据中是否展现出了彭胀才能?

总体而言,某种进程上,HPT跟着数据集数目、数据千般性、模子体量和陶冶筹办量呈现出缩放行为。

HPT采集详备信息,宽度表述turnk transformer的潜在维度,深度表现block数目,默许竖立为HPT-Small型号

预陶冶数据集详备信息,默许使用来自RT-X的27个数据集的16k个轨迹进行陶冶

数据缩放

数据方面,如图5所示,即使在异构进程缓缓增大的实质中也具有稳固且可彭胀的考证耗损。

此外,作家还发现,筹办量(特别于每次陶冶运行看到的样本量)和数据量需要共同彭胀,才能在陶冶历程中更接近管制。

epoch缩放

如图6所示,增多批大小(左)特别于灵验地彭胀陶冶token数(右),频频不错提高模子性能,直至临了管制。

另一个不雅察成果是,使用散布式身手,在每个陶冶批中团员尽可能更多的数据集,用更大的批大小来弥补异构陶冶中的较大方差。

模子缩放

如图7所示,固定数据集和轨迹数目,沿着模子大小(从1M到1B)进行缩放,并缓缓将批大小从256增多到 2048(模子大小每增多一倍),并使器具有170k轨迹的更大数据集。

不错不雅察到,当咱们彭胀到具有更大筹办量(红线)的更大模子时,预陶冶不错杀青较低的考证耗损,直到达到稳固水平,但莫得发现缩放模子深度和模子宽度之间存在显贵互异。

图8中的实验成果标明,HPT不错特别灵验地处理异构数据。尽管与真正机器东说念主存在很大的差距,但对其他实质的数据集(举例模拟环境和东说念主类视频数据集)进行预陶冶是可能的。

迁徙学习

如上,作家使用了临了一次迭代中考证集上的耗损来评估预陶冶。

接下来,他们将通过实验,去考证机器东说念主在迁徙学习中,任务告捷率的问题:

预陶冶的HPT模子,是否不错迁徙到模拟和现实寰球中的全新实质、任务、以及环境中?

模拟环境

如下图10(a)中,盘考东说念主员在闭环模拟中测试了卑劣任务的模子,并不雅察到使用HPT-B到HPTXL预陶冶模子,提到的任务告捷率。

在图10(b)中,他们在最近发布的Simpler基准上运行HPT,它允许在高保真模拟上与Octo、RT1-X、RT2-X进行比较。

在Google EDR机器东说念主中,盘考东说念主员重心柔柔三个不同的任务「关闭抽屉」、「选可乐罐」。

关于每个任务,他们测试了几种不同的运行化,整个任务所有这个词有300+ episode。

现实寰球

这里,作家取舍了与前一节同样的迁徙学习身手,并在真正寰球的评估合同下,评估预陶冶的HPT表现。

他们以256批大小和

陶冶率陶冶战略20000次迭代。

图12泄露的定量成果,盘考东说念主员不雅察到,预陶冶战略比拟No-Trunk和From-Scratch基准赢得了更好的告捷率。

极度是在倒水的任务中,From-Scratch基准使用了起初进的扩散战略架构,以展示预陶冶表现的天真性。

图11定性成果泄露,作家不雅察到预陶冶的HPT在濒临不同姿势、物体数目、相机配置、光照条款时,施展出更好的泛化才能和鲁棒性。

在表3中,作家对Sweep Leftover任务进行了消融盘考。

尽管最近数据限制激增,但由于异构性的存在,机器东说念主学习的通用性仍然受到限定。

盘考东说念主员提议的HPT——一种模块化架构和框架,通过预陶冶来搪塞这种异构性。

他但愿这一不雅点大要启发以前的责任,以处理机器东说念主数据的异构性实际,从而为机器东说念主基础模子铺平说念路。

作家先容

Lirui Wang

Lirui Wang是MIT CSAIL的博士生,导师是Russ Tedrake栽种。

在此之前,他曾在华盛顿大学赢得学士和硕士学位,导师是Dieter Fox栽种。

他的盘考趣味在于机器学习和机器东说念主学。尤其是,他对开辟大要在复杂和非结构化的真正寰球环境中,泛化的算法和系统感趣味。

为了杀青这一丝,他一直发奋于盘考大要跟着异类数据进行彭胀的「舰队学习」(fleet learning)。

Xinlei Chen

Xinlei Chen是旧金山Meta Fair实验室的盘考科学家。刻下的盘考趣味是预陶冶,极度是自监督、多模态视觉表征的预陶冶。

他曾在CMU谈话时刻盘考所赢得博士学位,就读时期也在机器东说念主盘考所责任。此前,他赢得了浙大的学士学位。

Jialiang Zhao

Jialiang Zhao刻下是 MIT CSAIL感知科学小组的博士生,导师是Edward H. Adelson栽种,并与Russ Tedrake 、何恺明相助。

Kaiming He

何恺明刻下是麻省理工学院电子工程与筹办机科学系副栽种。

他提议的最为着名的盘考是深度残差采集(ResNets),并被平方应用到当代深度学习模子当中,比如Transformer(GPT、ChatGPT)、AlphaGo Zero、AlphaFold、扩散模子等。

在加入MIT之前,何恺明于2016年至2024年担任Facebook AI Research的盘考科学家,并于2011年-2016年担任微软亚洲盘考院(MSRA)的盘考员。

他曾在2011年在香港华文大学赢得博士学位开云彩票(中国)官方网站,并于2007年在清华大学赢得学士学位。


当前网址:http://www.gzgfjixiao.com/xinwenzixun/506415.html
tag:开云彩票(中国)官方网站,径直,要津,就是,怎样,陶冶
发表评论 (132人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
昵称:
最新评论

Powered by 开云彩票(中国)官方网站 @2014 RSS地图 HTML地图