history C语言 Nginx环境搭建 Java中高进阶架构 Java程序员 highcharts threejs background vue遍历 jquery解析json kafka默认端口 查看kafka消费情况 cos图像和sin图像 arraylist删除指定元素 dplayer不能全屏 python正则匹配中文 matlab输入参数太多 后台管理网站模板 python运算符优先级 random函数用法 python等待10秒 python的编译器 python创建文件 linux镜像安装 德鲁伊武器 相关软件 kms神龙版 电脑密码查看器 java字符串截取 大数据之路 数据结构与算法分析 flash教程 omg小北 德玛上单天赋 mac修改器 田字格字体 大话5g dos常用命令 php是什么文件 android应用案例开发大全
当前位置: 首页 > 学习教程  > 编程语言

[论文翻译]SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks

2020/12/5 10:09:29 文章标签:

1.几个问题 1.1 基本信息 2020 NIPS 1.2 做了什么 3D Roto-Translation Equivariant Attention Networks 1.3 创新性 我们引入了一种新的自我注意机制,保证其输入的全局旋转和平移不变。它也与输入点标签的排列相同。我们证明了SE(3)变…

在这里插入图片描述

1.几个问题

1.1 基本信息

2020 NIPS

1.2 做了什么

3D Roto-Translation Equivariant Attention Networks

1.3 创新性

  • 我们引入了一种新的自我注意机制,保证其输入的全局旋转和平移不变。它也与输入点标签的排列相同。
  • 我们证明了SE(3)变换器解决了并行SE(3)等变神经网络存在角度约束滤波器的问题
  • 我们介绍了一个球谐函数的Pytorch实现,它在CPU上比Scipy快10倍,在GPU上比Scipy快100-1000倍。这直接解决了TFNs的瓶颈[28]。E、 g.对于ScanObjectNN模型,与使用lielearn库中的SH构建的网络相比,我们实现了≈22倍的前向传递速度(见附录C)。

2.翻译

2.0 摘要

我们介绍了SE(3)变换器,它是三维点云和图的自注意模块的一个变体,它在连续的3D旋转平移下是等变的。在数据输入存在干扰性转换的情况下,等方差对于确保稳定和可预测的性能非常重要。等变项的一个积极推论是在模型中增加了权重。SE(3)-Transformer利用自我注意的优点来操作具有可变点数的大点云和图,同时保证SE(3)的等变鲁棒性。我们在一个玩具N体粒子模拟数据集上评估了我们的模型,展示了在输入旋转下预测的鲁棒性。我们在两个真实数据集ScanObjectNN和QM9上取得了具有竞争力的性能。在所有情况下,我们的模型都优于一个强的,非等变注意基线和一个没有注意的等变模型。

2.1 Intro

近年来,自我注意机制的普及率急剧上升。它们相对简单的实现,再加上在语言建模[31]、图像识别[18]或基于图形的问题[32]等一系列任务上的高效性,使它们成为一个有吸引力的组件。然而,对于他们现有的知识的普遍性而言,这意味着未使用的知识的基础结构。在本文中,我们提出了如图1所示的SE(3)变换器,这是一种专门针对三维点云和图形数据的自关注机制,它遵守等变约束,提高了对干扰变换的鲁棒性,并具有一般性能。

在这里插入图片描述
点云数据在许多领域都是普遍存在的,以不同的形式呈现,比如三维物体扫描[29]、三维分子结构[21]或N体粒子模拟[14]。寻找能够适应输入中不同点数的神经结构,同时尊重点位置的不规则采样,是一项具有挑战性的工作。此外,一个重要的特性是这些结构应该对整体输入姿态的全局变化保持不变;也就是说,输入点云的三维平移和旋转不应影响输出。在这篇论文中,我们发现在自我注意机制上显式地加上等变项约束可以解决这些挑战。SE(3)-Transformer使用self-attention机制作为数据相关的过滤器,特别适合稀疏的、非体素化的点云数据,同时尊重和利用手头任务的对称性。

自我注意本身就是一组点之间的伪线性映射。它由两个部分组成:依赖于输入的注意权重和一个嵌入的输入值嵌入。在图1中,我们展示了一个分子图的例子,它被附加到每个原子上,我们看到一个值嵌入向量,其中注意权重用边表示,宽度对应于注意权重的大小。在SE(3)-变换器中,我们显式地设计了注意权重,使其对全局姿态保持不变。此外,我们设计了与全局姿态一致的值嵌入。等变推广了卷积的平移加权捆绑。它确保层输入的转换显示为输出的等效转换。特别是SE(3)-等变是二维平移加权的推广,从传统的卷积到三维的旋转平移,它将可学习函数的空间限制在一个子空间中,该子空间遵循任务的对称性,从而减少了可学习参数的数量。同时,它为我们提供了更丰富的不变性形式,因为输入中特征之间的相对位置信息被保留了下来。

最接近我们的工作是张量场网络(TFN)[28]和它们的体素化等效物,3D可操纵CNN[37]。这为建立在点云上运行的SE(3)等变卷积网络提供了框架。用自我注意代替卷积有几个优点。(1) 它允许自然地处理将TFNs扩展到图形设置的边缘特征。(2) 这是非线性等变层的第一个例子。在第3.2节中,我们展示了我们提出的方法与TFN相比,消除了对滤波器的强角度约束,从而增加了表示能力。在等变文献中已经指出了这种限制,严重限制了性能[36]。此外,我们提供了一个更有效的实现,主要是由于一个GPU加速版本的球谐函数。与[28]中使用的架构相比,我们实验中的TFN基线利用了这一点,并使用了显著放大的架构。

我们的贡献如下:

  • 我们引入了一种新的自我注意机制,保证其输入的全局旋转和平移不变。它也与输入点标签的排列相同。
  • 我们证明了SE(3)变换器解决了并行SE(3)等变神经网络存在角度约束滤波器的问题
  • 我们介绍了一个球谐函数的Pytorch实现,它在CPU上比Scipy快10倍,在GPU上比Scipy快100-1000倍。这直接解决了TFNs的瓶颈[28]。E、 g.对于ScanObjectNN模型,与使用lielearn库中的SH构建的网络相比,我们实现了≈22倍的前向传递速度(见附录C)。
  • Code available at Here

2.2 背景和相关工作

2.2.1 注意力机制

标准注意机制[31]可以被认为是由三个术语组成的:

一组查询向量
在这里插入图片描述
一组关键字向量
在这里插入图片描述
一组值向量
在这里插入图片描述
其中r和p是低维嵌入的维度。
对于任意的查询向量q_i,注意力机制可以被写成:

在这里插入图片描述
其中我们使用Softmax作为作用于权重的非线性。 一般情况下,查询向量的个数不必等于输入点的数量。在自注意的情况下,查询、键和值向量是输入特征的嵌入,因此:

在这里插入图片描述
其中{hQ,hK,hV}通常是神经网络。qi和第i个输出联系。qi关注着所有j≠i的点。

由于在深度学习中成功地完成了一系列任务,如语言建模[31]、图像识别[18]、基于图形的问题[32]和关系推理[30,9],最近的一系列工作将自我注意算法的形式应用于点云数据[44,42,16]。一个这样的例子是Set变换器[16]。当应用于ModelNet40[41]上的对象分类时,集合变换器的输入是点的笛卡尔坐标。在动态查询其他点的信息时,每个层都进一步嵌入了这些位置信息。最后的逐点嵌入被降采样并用于对象分类。

排列等变。自我注意的一个关键特性是排列等变。点标签1,…,n的排列导致自我注意输出的排列。这保证了注意力输出不会任意依赖于输入点的排序。Wagstaff等人[33]最近表明,这种机制理论上可以近似所有置换等变函数。SE(3)变换器是这种注意机制的一个特例,它继承了置换等变。然而,它将可学习函数的空间限制为旋转和平移等变函数。

2.2.2 图神经网络

注意力与点云的大小成二次方关系,因此引入邻域是有用的:它不再关注所有其他点,而是只关注最近的邻居。具有邻域的集合自然地表示为图。注意力以前已经被引入到图的名称内,自我,顶点,或图的注意[17,31,32,12,26]。这些方法被Wang等人[34]与非局部神经网络相结合。这有一个简单的形式

在这里插入图片描述
其中w和h是神经网络,C将Ni附近所有特征的和正规化。这与注意力有着相似的结构,实际上,我们可以把它看作是每一个邻居的注意力。虽然非本地模块没有显式地包含边缘特征,但是可以添加它们,正如Veliˇckovi’c等人[32]和Hoshen[12]所做的那样。

2.2.3 等变性

在这里插入图片描述
指数g可以看作是描述变换的参数。给定一对(Tg,Sg),我们可以求解满足方程4的等变函数族φ。此外,如果(Tg,Sg)是线性的,并且映射φ也是线性的,那么寻找φ的理论已经非常丰富和成熟。在等变文献中,深层网络是由交错线性映射φ和等变非线性构成的。在三维旋转平移的情况下,已经证明φ的合适结构是张量场网络,解释如下。

注意,Romero等人[24]最近为基于像素的图像数据引入了二维旋转平移等变注意模块。

群表示。一般来说,这些变换(Tg,Sg)称为群表示。形式上,群表示ρ:G→GL(N)是群G到N×N可逆矩阵GL(N)的映射。严格地说,ρ是群同态,即对于所有g1,g2∈G,它满足以下性质ρ(g1g2)=ρ(g1)ρ(g2)。特别是对于三维旋转G=SO(3),我们有几个有趣的性质:1)它的表示是正交矩阵,2)所有表示都可以分解为

在这里插入图片描述
其中Q是正交的,N×N的基变换矩阵。对于l=0,1,2,…,每个Dl是一个(2l+1)×(2l+1)矩阵,称为Wigner-D矩阵。而L是矩阵沿对角线的直接和或级联。Wigner-D矩阵是SO(3)的不可约表示-把它们看作可能的“最小”表示。根据Dl变换的向量(即我们设置Q=i)称为l型向量。0型矢量在旋转下是不变的,而1型矢量是根据三维旋转矩阵旋转的。注意,l型向量的长度为2l+1。它们可以堆叠,形成根据式(5)变换的特征向量f。

张量场网络。张量场网络(TFN)[28]是一种神经网络,它在SE(3)-等变、三维旋转和平移的约束下,将点云映射到点云。对于点云,输入是以下形式的向量场 f : R 3 → R d f:R^3→R^d f:R3Rd

在这里插入图片描述
其中δ是Diracδ函数,{xj}是三维点坐标,{fj}是点特征,表示原子序数或点同一性等量。为了满足等变项,式(5)下的TFN变换的特征,其中Q=I。每个 f j f_j fj是不同类型向量的串联,其中l类型的子向量被写为 f j l f_j^l fjl。TFN层计算空间中连续的、可学习的权值核 W l k : R 3 → R ( 2 l + 1 ) × ( 2 k + 1 ) W^{lk}:R^3→R^{(2l+1)×(2k+1)} Wlk:R3R2l+1×2k+1从k型特征到l型特征的卷积。位置 x i x_i xi处的TFN层的l型输出为

在这里插入图片描述
在这里插入图片描述
式(7)和式(9)以消息传递的形式给出了卷积,其中从所有节点和特征类型聚合消息。它们也是非局部图运算的一种形式,如式(3),其中权值是边上的函数,特征 f i {f_i} fi是节点特征。我们稍后将看到我们提出的注意力层如何将卷积和图神经网络的各个方面结合起来。

2.3 方法

在这里插入图片描述
这里,我们介绍SE(3)-转换器。该层可以分解为如图2所示的步骤的过程,我们将在下面的部分中描述。这些是从点云构造图,在图上构造等变边函数,如何在图上传播SE(3)等变信息,以及如何聚合它们。我们还为自我交互层引入了另一种选择,我们称之为注意自我交互。

2.3.1 邻域

给定一个点云 ( x i , f i ) {(x_i,f_i)} xifi,我们首先引入一组邻域 N i ⊆ 1 , … , N N_i⊆{1,…,N} Ni1N,一个以每个点i为中心。这些邻域可以通过最近邻方法计算,也可以已经定义。例如,分子结构的邻域由它们的键结构定义。邻域将注意机制的计算复杂度从点数的二次型降低到线性。邻域的引入将我们的点云转换成一个图。该步骤如图1所示。

2.3.2 SE(3)-Transformer

SE(3)变压器本身由三个部件组成。这是1)沿边注意权重αij,构造成在每个边ij上是SE(3)不变的;2)沿SE(3)-等变值消息,在节点之间传播信息,如等式(7)的TFN卷积所示,以及3)线性/注意自交互层。每个邻域基础上进行关注如下:

在这里插入图片描述

这些组件如图2所示。如果我们去掉了注意权,那么我们就有了张量场卷积,如果我们去掉了WV对(x_j | x_i)的依赖,我们就有了一个传统的注意机制。在注意权αij不变的条件下,式(10)与SE(3)-变换是等变的。这是因为它只是等变值信息的线性组合。不变性注意权重可以通过等式(11)所示的点积注意结构来实现。该机制由节点i处的查询向量q_i和邻域Ni中沿每个边ij的一组密钥向量{kij}j∈Ni之间的归一化内积构成,其中

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.3.3 节点和边缘特征

点云数据通常具有附加到点(节点特征)和点之间连接(边缘特征)的信息,我们都希望将这些信息作为输入传递到网络的第一层。节点信息可以通过Eqs中的张量fj直接合并。(6) 和(10)。为了合并边缘信息,请注意fj是多个邻域的一部分。可以用公式(10)中的fij代替fj。现在,fij可以携带不同的信息,这取决于我们目前关注的是哪个社区的Ni。换句话说,fij既可以携带关于节点j的信息,也可以携带关于边缘ij的信息。或者,如果边缘信息是标量的,则可以将其并入权重矩阵WV和WK中作为径向网络的输入(参见图2中的步骤2)。

在这里插入图片描述

2.4 实验

略。做了N体模拟实验、扫描对象NN上的真实世界对象分类、QM9回归数据集实验等。

2.5 结论

我们提出了一种基于注意力的神经网络结构,专门为点云数据设计。该体系结构保证对输入的旋转和平移具有鲁棒性,避免了训练时间数据扩充的需要,并保证了对任意坐标系选择的稳定性。自注意的使用允许各向异性的、数据自适应的过滤器,而邻域的使用使得对大型点云的可伸缩性成为可能。我们还将注意力机制解释为一种依赖数据的非线性,增加了我们可以在等变网络中使用的等变非线性列表。此外,我们提供了一个程序,以加速计算高达3个数量级的球谐函数。这种加速使我们能够训练SE(3)变压器和张量场网络[28]的更大版本,并将这些模型应用于真实世界的数据集。

我们的实验表明,在一个旋转-平移等变项模型上增加注意力,可以持续提高训练的准确性和稳定性。特别是对于大的社区,注意力被证明是模型收敛的关键。另一方面,与传统的注意相比,增加等变约束也提高了我们所有实验的性能,同时为输入数据的旋转提供了鲁棒性的数学保证。

更广泛的影响

本文的主要贡献是建立了一个数学激励的注意机制,可用于基于点云的问题的深度学习。我们看不到对社会有直接的负面影响。然而,我们要强调的是,这种算法本质上适合于分子的分类和回归问题。因此,SE(3)变压器有助于在药物研究中的应用。我们目前正在研究的一个具体应用是使用该算法对抑制冠状病毒繁殖周期的分子进行早期适宜性分类。虽然这类研究总是需要在潮湿的实验室里进行密集的测试,但计算机算法可以并且正在被用来从数百万分子的大型数据库中筛选出特别有前途的化合物。


本文链接: http://www.dtmao.cc/news_show_450164.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?