立教大学の研究グループは,フーリエ変換を使った新しい画像認識手法を開発し,この研究成果が,人工知能分野の国際会議の一つである「AAAI-24」に採択されたと発表した(ニュースリリース)。
深層学習において,注意機構は長距離の依存関係を学習するのに適している技術だが,大量のメモリを必要とする問題があり,特に高解像度画像を扱うコンピュータビジョンモデルにおいて深刻となる。
そこで近年,注意機構に代わる高速フーリエ変換ベースの仕組みであるグローバルフィルタが提案されている。グローバルフィルタは注意機構と同様に長距離の空間依存性を学習することができる。
この手法は,高速フーリエ変換,周波数領域における要素ごとの掛け算,逆高速フーリエ変換で構成されている。シンプルなこの手法は,注意機構とは異なり,解像度が増えても,大量のメモリを必要とすることもなく,計算量も穏やかに増加するのみ。しかしながら,グローバルフィルタは最先端の性能を達成しているとは言い難い。
研究グループは,グローバルフィルタと注意機構の隔たりに注目し,その隔たりを埋めた動的フィルタを提案した。グローバルフィルタはデータとパラメータを掛け合わせるため,データに依存しない演算。
対照的に,注意機構は個別の重み付けを計算するため,データに依存する演算。このように,グローバルフィルタと注意機構にはデータに依存するか否かの差分がある。
そこで,データに掛け合わせるフィルタを動的に生成する仕組み「動的フィルタ」を導入した。動的フィルタは,データに応じて重みを計算し,その重みと少数の基底フィルタから,データに応じたフィルタを生成する。
このような方法を採用することで,グローバルフィルタの利点を享受したまま,注意機構のようなデータ依存性を実現できるという。
次に,提案手法の動的フィルタを取り入れたDFFormerと,動的フィルタと畳み込みニューラルネットを併用したCDFFormerという新たな画像認識モデルを提案した。グローバルフィルタと注意機構の間には,そのものの差だけでなく,それらを採用しているよりマクロなアーキテクチャの間にも差があった。
この差を埋めるために,最先端の精度を達成したアーキテクチャの上に動的フィルタを搭載し,フェアな比較の下で動的フィルタの有用性を確認した。これらのモデルは高解像度の画像認識において,グローバルフィルタと同様に,提案手法は相対的に少ないメモリ消費や計算時間で済むという特長を有している。
研究グループは,動的フィルタを通して,注意機構に関する理解を深める研究が促進されることが期待されるとしている。