Legendre memory units: Continuous-time representation in recurrent neural networks

Sun, 02 Feb 2025 05:02:58 GMT

1. WHY?

시퀀스 데이터에 대해 이전 정보를 기억하는 RNN, LSTM, GRU는 데이터를 순차적으로 처리해야 해서 병렬화가 어려움

이상적인 모델 구조의 발전 방향은 CNN과 같이 병렬화 연산이 가능한 구조, RNN과 같이 상태 추론 과정을 통한 장기 기억 정보 처리가 가능한 구조여야 함

이전 정보를 기억하면서 병렬로 처리하고 싶다!

LMU는 딜레이 구조(Delay network)를 사용해 과거 정보를 효율적으로 유지하려고 함

딜레이 구조는 입력 신호 $u(t)$의 과거 값 $u(t-\theta)$를 활용해 현재와 미래의 연산을 도움

하지만 딜레이 구조를 직접 사용하려면 $G(s) = e^{-\theta s}$처럼 무한 차원의 시스템을 계산해야 하며, 이는 계산이 불가능하거나 너무 비효율적이라 근사가 필요함

LMU는 딜레이 구조를 LTI 시스템으로 근사해서 문제를 해결!

$F(s)=e^{−θs}$는 시간 지연(delay)을 나타내는 transfer function
시간 영역에서 보면 입력 $u(t)$가 출력 $y(t)$에 영향을 미치기까지 $\theta$만큼의 지연이 발생한다는 뜻
(즉, 출력 $y(t)$가 현재 입력 $u(t)$가 아닌 과거 입력 $u(t-\theta)$의 영향을 받는다는 뜻)*
- $y(t)=u(t−θ)$
딜레이 시스템은 무한 차원이라 근사가 어려우므로 유한 차원 d-차원의 미분 방정식으로 근사 필요
상태 벡터 $m(t) \in \mathbb{R}^d$를 사용해 딜레이 시스템 근사
- $\dot{m}(t) = A m(t) + B u(t)$
- $m(t)$: 입력 신호 $u(t)$의 시간적 연속성을 직접 저장하는 상태 벡터 … 시간적으로 연속된 특징을 직접 표현하는 주요 메모리 공간
- A, B: 딜레이 시스템을 유한 차원으로 근사하기 위해 정의된 행렬 … 변환 규칙

Shifted Legendre Polynomial
상태 벡터 $m(t)$는 입력 신호 $u(t)$의 시간적으로 연속된 상태를 표현하며, 과거 신호의 중요한 특징들을 Legendre 다항식의 직교 기저(orthogonal basis) 계수로 압축
- $u(t - \theta') \approx \sum_{i=0}^{d-1} P_i\left(\frac{\theta'}{\theta}\right) m_i(t)$
- $P_i(r)$는 i-차 Legendre 다항식
- $m_i(t)$는 각 Legendre 다항식의 계수로서, 입력 신호의 시간적 패턴을 나타냄

*****왜 $\theta'$을 근사하는가!**

$y(t) = u(t-\theta)$를 근사하려고 할때 $\theta$는 고정된 딜레이를 의미

LMU는 $\theta$ 길이($[t-\theta, t]$)의 전체 구간에서 입력 신호의 다양한 시점 정보를 처리하려고 함!

$\theta'$ 는 고정 된 $\theta$ 길이 내에서의 상대적인 딜레이 위치를 나타냄

행렬 A와 B는 입력 신호 $u(t)$의 시간적 연속성을 ‘반영’하는 변환 규칙으로 상태 벡터 $m(t)$가 시간적으로 어떻게 변화하는지 정의
- $A_{i,j} = \begin{cases} \frac{2i + 1}{\theta} (-1)^{j-i+1}, & \text{if } i \geq j \ \frac{2i + 1}{\theta}, & \text{if } i < j \end{cases}B_i = \frac{2i + 1}{\theta} (-1)^i$
- A: 이전 상태 $m(t)$가 다음 상태 $m(t+\Delta t)$로 어떻게 전이되는지 나타냄
- B: 입력 신호 $u(t)$가 상태 $m(t)$에 미치는 영향을 나타냄

실제 계산에서 연속적인 미분 방정식 대신 이산화(discretized)된 형태 사용
- $m_{t+1} = \tilde{A} m_t + \tilde{B} u_t$
- $\tilde{A}, \tilde{B}$는 A,B를 이산화한 행렬