東京工業大学の研究グループは,手首装着型小型カメラで撮影した手の甲のカラー画像を深層学習ネットワークで学習することで,手指のジェスチャーを認識する技術を開発した(ニュースリリース)。
手指のジェスチャー認識は,家電機器の操作,コンピューターや仮想現実感(VR)における操作入力,あるいは手話認識など広い分野への応用が期待されている。
従来技術として,1台以上の固定されたカメラを利用したジェスチャー認識はあるが,カメラの前の限られた範囲内でしか認識ができず,例えば歩行中のジェスチャーなど,広い範囲での認識はできなかった。一方,手袋型デバイスを装着する手法もあるが,手袋着用の手間があること,デバイスが高価であること,一般的な使用には向かないなど問題点がある。
開発した手指ジェスチャー認識システムでは,利用者の手首の甲側に小型カメラを装着する。具体的な使用デバイスとしては,竜頭の部分に小型カメラを搭載したスマートウォッチを想定しているという。
この小型カメラで撮影した映像には,利用者の手の甲のみが映っている。この画像を入力として,撮影時の手指の3次元姿勢を出力とする深層学習ネットワークを新たに設計・開発した。
カメラが撮影した手の甲のカラー画像と,そのカラー画像を2値化処理した白黒画像の過去数フレームを,それぞれ深層学習ネットワークResNet18に入力し,両方の出力を処理することにより,指関節の3次元座標が出力される。これを手指の3次元姿勢再構成モデルで処理することで,3次元手指姿勢を推定する。
評価実験の結果,静的なジェスチャー認識で最高91.4%,タッピングなどの動的なジェスチャー認識で最高89.4%の認識精度を達成した。今後,データセットの拡充でさらなる精度向上が期待できるという。
小型カメラを搭載したスマートウォッチはすでに市販されている。今後は,同様に小型カメラを搭載した腕輪型デバイスも普及すると考えられ,それに伴って,今回開発された手指のジェスチャー認識技術が広く利用されることが期待されるとしている。