xLSTM

上文我们已经详细介绍了LSTM：LSTM详解

所谓的门控机制，实际上就是一种时序上的注意力机制，核心思想都是选择性控制信息流动，更好的处理时序数据或者序列信息。

门控机制通过固定的结构和参数来控制信息流，而相比Transformer使用动态的计算权重来控制信息流，门控机制可以认为是一种约束版的注意力机制。

那么问题来了，既然LSTM看起来很好，为什么在长序列建模中没有大获全胜呢？

LSTM的局限性：

公式如下：

针对LSTM处理长序列效率低的局限性，sLSTM进行了注意力机制的改动：

公式如下：

从公式可以看出，sLSTM主要的精力在于修改隐藏状态ht：

sLSTM通过修改门控机制加强了长序列处理的效率问题，此处为了处理LSTM的记忆容量有限的问题和并行化问题，将记忆单元c从一个标量变成了一个矩阵C。

公式如下：

从公式可以看出，mLSTM使为了解决记忆容量的问题，引入了矩阵C。

mLSTM为了解决并行化问题，引入qkv，将原来的候选记忆的实现变成了qkv的实现来实现并行。

xLSTM的改进在于模型堆叠。

具体的框架如下：

You Missed