RoPE：为什么你的Transformer模型需要这种“旋转”的力量？qwen2.5的位置编码！

在RoPE中，频率fff的变化体现了位置信息的多层次编码、不同尺度的敏感度、相对位置的自然表示以及模型的灵活性和适应性。这种设计使得RoPE能够在Transformer模型中有效地编码位置信息，从而提高模型对序列数据的理解能力。

秋天是倒放的春天963

1339人浏览 · 2025-03-12 19:30:17

秋天是倒放的春天963 · 2025-03-12 19:30:17 发布

旋转位置编码（RotaryPositionEmbedding，RoPE）

RoPE的核心在于将嵌入向量视为复数向量，并通过旋转矩阵对其进行旋转。旋转的角度与位置相关，从而将位置信息编码到向量的方向中。

1.旋转矩阵 $R(θ)R(\theta)$

旋转矩阵是一种用于线性代数和几何变换中的矩阵，它能够将向量在坐标系中进行旋转。

在向量空间中，将一个向量顺时针或逆时针旋转一定角度，可以通过将这个矩阵与旋转矩阵点乘来实现：

在二维空间中，一个旋转矩阵可以表示为：

$R(\theta)=\begin{bmatrix} \cos(\theta)&-\sin(\theta)\\ \sin(\theta)&\cos(\theta) \end{bmatrix}$

其中， $θ\theta$ 是旋转的角度。当我们将一个向量 $v=[xy]\mathbf{v}=\begin{bmatrix}x\\y\end{bmatrix}$ 乘以这个旋转矩阵时，向量 $v\mathbf{v}$ 将在二维平面上逆时针旋转 $θ\theta$ 角度。

1.1旋转矩阵的工作原理

首先我们将旋转 $θ\theta$ 角度旋转矩阵写作 $R(θ)R(\theta)$ 。

旋转矩阵的工作原理基于三角函数的性质。对于一个给定的向量 $v=[xy]\mathbf{v}=\begin{bmatrix}x\\y\end{bmatrix}$ ，我们可以通过旋转矩阵 $R(θ)R(\theta)$ 将其旋转到新的位置 $v′=[x′y′]\mathbf{v}'=\begin{bmatrix}x'\\y'\end{bmatrix}$ 。这个过程可以通过以下矩阵乘法来表示：

$\mathbf{v}'=R(\theta)\mathbf{v}=\begin{bmatrix} \cos(\theta)&-\sin(\theta)\\ \sin(\theta)&\cos(\theta) \end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}=\begin{bmatrix}x'\\y'\end{bmatrix}$

其中：
$x'=x\cos(\theta)-y\sin(\theta)$
$y'=x\sin(\theta)+y\cos(\theta)$

1.3旋转矩阵的性质

1.正交性：旋转矩阵是正交矩阵，这意味着它的列向量和行向量都是单位向量，并且两两正交。因此，旋转矩阵的逆矩阵等于它的转置矩阵。
2.行列式为1：旋转矩阵的行列式为1，这表示旋转操作不会改变向量的长度，只改变其方向。
3.周期性：旋转矩阵具有周期性，即 $R(θ+2π)=R(θ)R(\theta+2\pi)=R(\theta)$ 。
4.基础运算：旋转矩阵的乘法遵循矩阵乘法的规则，即 $R (a + b) = R (a) R (b)$ 。我们马上就会用到。

2.旋转矩阵如何提供位置信息

我们先举个例子：

给定向量 $q$ 和 $k$ ：

$q=[q1,q2]q=\begin{bmatrix}q_1,&q_2\end{bmatrix}$

$k=[k1,k2]k=\begin{bmatrix}k_1,&k_2\end{bmatrix}$

注意力计算为：

$\text{attention}(q,k)= q \ cdotk=qk^T$

此时并没有携带位置信息，模型无法知道q和k的位置信息。

2.1带有相对位置信息的注意力机制

通过旋转后再点乘的方法：

$R(m) \ cdotkR(n)=qR(m)R(n)^Tk^T$

$qR(m)R(-n)k^T$

$qR(m-n)k^T$

这种方法带有相对位置信息。 $R (m - n)$ 就代表着位置信息。

3.将旋转矩阵扩展到高维向量

高维旋转矩阵 $R (m f)$ 的结构：

3.1旋转矩阵 $R (m f)$

矩阵 $R (m f)$ 是一个用于RoPE的旋转矩阵，它被设计为一个方阵，其中包含了余弦和正弦函数的值，这些值用于编码位置信息。矩阵的每一行和每一列对应于嵌入向量中的一个维度。矩阵的结构如下：

$R(mf)=\begin{bmatrix} \cos(mf_0)&\sin(mf_0)&0&0&\cdots&0\\ -\sin(mf_0)&\cos(mf_0)&0&0&\cdots&0\\ 0&0&\cos(mf_1)&\sin(mf_1)&\cdots&0\\ 0&0&-\sin(mf_1)&\cos(mf_1)&\cdots&0\\ \vdots&\vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&0&\cdots&\cos(mf_{\frac{d}{2}-1})\\ 0&0&0&0&\cdots&-\sin(mf_{\frac{d}{2}-1}) \end{bmatrix}$

这里， $m$ 是一个标量，通常与位置索引相关， $f_i$ 是与每个维度相关的频率， $d$ 是嵌入向量的维度。矩阵中的每个 $2×22\times2$ 子块对应于嵌入向量中的一对维度，这些子块用于在复数空间中旋转向量。

3.2频率 $f_i$

频率 $f_i$ 的计算公式为：

$f_i=\frac{1}{10000^{\frac{2i}{d}}}$

其中， $i$ 是维度索引（从0开始）， $d$ 是嵌入向量的总维度。这个公式确保了随着维度的增加，频率会逐渐减小，这有助于在不同尺度上编码位置信息。

3.3旋转操作

对于每个位置 $m$ ，旋转矩阵 $R (m f)$ 将嵌入向量 $x\mathbf{x}$ 中的每一对维度进行旋转。具体来说，如果嵌入向量的维度是 $d$ ，那么向量可以被看作是 $d2\frac{d}{2}$ 对复数（或 $d /2$ 对实数），每对由两个连续的维度组成。

让我们通过一个具体的例子来说明如何在旋转位置编码（RoPE）中使用高维旋转矩阵。假设我们有一个简单的文本序列，我们想要将RoPE应用于这个序列的Transformer模型中。

3.4旋转矩阵的频率 $f$

在旋转位置编码（RoPE）中，频率 $f$ 的变化体现了不同维度对位置信息的敏感度和编码的粒度。具体来说，频率 $f$ 的设计和变化反映了以下几个关键点：

1.不同尺度的位置编码

频率 $f_i$ 的计算公式通常包含一个与维度索引 $i$ 相关的指数项，如 $fi=1100002idf_i=\frac{1}{10000^{\frac{2i}{d}}}$ 。这种设计意味着不同维度对（即嵌入向量中的不同维度对）将有不同的频率，从而在不同尺度上编码位置信息。较低维度对（如第0和第1维度）具有较高的频率，因此对位置变化更敏感；而较高维度对（如接近嵌入维度末尾的维度对）具有较低的频率，对位置变化的敏感度较低。

2.位置信息的层次性

通过为不同维度对分配不同的频率，RoPE实现了位置信息的层次性编码。这种层次性允许模型在处理序列时能够捕捉到不同层次的位置信息，从而更好地理解序列的结构和元素之间的关系。

3.相对位置的自然表示

RoPE的一个核心优势是能够自然地表示相对位置信息。频率 $f$ 的变化使得模型在计算自注意力时，能够根据查询和键之间的相对位置动态调整注意力得分。这种动态调整是通过旋转矩阵实现的，旋转矩阵中的正弦和余弦值依赖于相对位置和频率。

4.模型的灵活性和适应性

频率 $f$ 的设计提供了模型的灵活性和适应性。通过调整频率的计算方式，模型可以适应不同长度和结构的序列。例如，通过调整频率的基数或指数，可以改变模型对位置信息的敏感度，从而适应特定的任务需求。

5.计算效率和性能

频率 $f$ 的变化还影响模型的计算效率和性能。由于不同维度对具有不同的频率，模型可以更有效地分配计算资源，优先处理对位置变化更敏感的维度对。这有助于提高模型的训练和推理效率。

总结

在RoPE中，频率 $f$ 的变化体现了位置信息的多层次编码、不同尺度的敏感度、相对位置的自然表示以及模型的灵活性和适应性。这种设计使得RoPE能够在Transformer模型中有效地编码位置信息，从而提高模型对序列数据的理解能力。

3.5示例

-序列：“Thequickbrownfox”
-序列长度（ $L$ ）：5（对应每个单词）
-嵌入维度（ $d$ ）：4（为了简化计算）
-位置索引： $[0, 1, 2, 3, 4]$

步骤1:计算频率 $f_i$

对于每个维度对，我们计算频率 $f_i$ 。由于我们的嵌入维度 $d = 4$ ，我们有两对维度（0和1，2和3）。

$f_i=\frac{1}{10000^{\frac{2i}{d}}}$

对于 $i = 0$ （维度对0和1）：
$f_0=\frac{1}{10000^{0}}=1$

对于 $i = 1$ （维度对2和3）：
$f_1=\frac{1}{10000^{\frac{1}{2}}}\approx\frac{1}{100}=0.01$

步骤2:构造旋转矩阵 $R (m f)$

对于每个位置 $m$ ，我们构造旋转矩阵 $R (m f)$ 。这里，我们简化计算，只考虑位置 $m = 0$ 和 $m = 1$ 。

对于 $m = 0$ ：
$R(0)=\begin{bmatrix} \cos(0)&-\sin(0)&0&0\\ \sin(0)&\cos(0)&0&0\\ 0&0&\cos(0)&-\sin(0)\\ 0&0&\sin(0)&\cos(0) \end{bmatrix}=\begin{bmatrix} 1&0&0&0\\ 0&1&0&0\\ 0&0&1&0\\ 0&0&0&1 \end{bmatrix}$

对于 $m = 1$ ：
$R(1)=\begin{bmatrix} \cos(f_0)&-\sin(f_0)&0&0\\ \sin(f_0)&\cos(f_0)&0&0\\ 0&0&\cos(f_1)&-\sin(f_1)\\ 0&0&\sin(f_1)&\cos(f_1) \end{bmatrix}$

步骤3:应用旋转矩阵

假设我们有一个词嵌入向量 $x=[x0,x1,x2,x3]\mathbf{x}=[x_0,x_1,x_2,x_3]$ 。我们将其与旋转矩阵 $R (m)$ 相乘，以编码位置信息。

对于 $m = 1$ ：
$\mathbf{x}'=R(1)\cdot\mathbf{x}=\begin{bmatrix} \cos(f_0)&-\sin(f_0)&0&0\\ \sin(f_0)&\cos(f_0)&0&0\\ 0&0&\cos(f_1)&-\sin(f_1)\\ 0&0&\sin(f_1)&\cos(f_1) \end{bmatrix}\cdot\begin{bmatrix} x_0\\ x_1\\ x_2\\ x_3 \end{bmatrix}$

步骤4:计算旋转后的向量

$\mathbf{x}'=\begin{bmatrix} x_0\cos(f_0)-x_1\sin(f_0)\\ x_0\sin(f_0)+x_1\cos(f_0)\\ x_2\cos(f_1)-x_3\sin(f_1)\\ x_2\sin(f_1)+x_3\cos(f_1) \end{bmatrix}$

4.与传统位置编码的对比

根据搜索结果，以下是旋转位置编码（RoPE）与传统位置编码的优缺点对比表格：

特性	旋转位置编码（RoPE）	传统位置编码（如正弦/余弦位置编码）
相对位置编码	自然捕捉相对位置信息，适合处理长距离依赖	主要捕捉绝对位置信息，难以直接反映词与词之间的相对位置关系
长序列表现	在处理超长序列时，性能下降较少，能够更好地适应	在处理超长序列时，位置编码的频率设计可能不适应，导致性能下降
动态序列长度	可以灵活适应不同长度的输入	静态编码，无法动态适应不同序列长度
计算效率	旋转操作可以通过向量化实现，计算开销小	计算效率相对较低，需要为每个位置生成一个固定的编码向量
实现复杂度	实现稍显复杂，需要仔细处理旋转矩阵的计算	实现简单，易于理解
与Transformer架构的兼容性	可以无缝集成到现有的Transformer模型中，无需大幅修改架构	与Transformer架构兼容，但可能需要额外的计算步骤
灵活性	灵活性高，可以应用于不同类型的输入数据	灵活性较低，主要适用于固定长度的序列
技术成熟度	技术相对较新，实践经验较少	技术成熟，广泛应用于多种任务

旋转位置编码（RoPE）通过旋转机制和对相对位置的自然捕捉，逐渐成为Transformer模型中的首选技术，尤其在处理长序列和相对位置信息方面具有优势。然而，它也存在一些局限性，如实现复杂度较高，且技术相对较新，仍在发展中。

作者码字不易，觉得有用的话不妨点个赞吧，关注我，持续为您更新AI的优质内容。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐