NTT,可視光通信を用いた超多チャンネル集音システムを開発

サッカーの試合やライブイベントなど,巨大な空間において録音を行なう際,多数のマイクを配置して周囲の音を含めて「まるごと」収録・処理することで,超指向性録音や,特定の位置で聞こえる音の再構成,雑音の除去など,臨場感の高い音の再現が可能になる。NTTではこうした超臨場感を目指す集音技術を開発しており,1,000~1万個ものマイクによる集音を実現しようとしている。

しかし,実際にこれだけ多数のマイクを配置するとなると,音声信号の伝送にケーブルを用いるのは現実的ではなく,また無線での伝送もやはり帯域の問題がある。この問題に対しNTTコミュニケーション科学基礎研究所の守谷特別研究室では,LEDを用いた可視光通信による超多チャンネル集音を試みており,6月2日に報道向けに公開した同研究所のオープンハウスにてデモを披露した。

これは,4×4のLEDとマイクをから成るマイクアレー(写真上)を用いる技術で,マイクアレーはマイクで集音した信号をデジタル変換し,LEDの明滅によって音声信号を送信する。この光信号をハイスピードカメラで受信する仕組みで,デモでは1台のハイスピードカメラで,タイル状に矩形に並べた200チャンネルのマイクアレーからの信号を受信した。

マイクアレーはLED 1つあたり1bit,合計で16bitのリニアPCMの信号化が可能であり,これはCDに匹敵する音質となる。LEDは16kHzで動作し,受信するカメラ側もこれに合わせたスピードで撮影を行なう。LEDの動作はマイクアレーごとにミリ秒単位で同期をとる必要があるため,マスタークロック信号を赤外線で飛ばし,マイクアレー上の受光素子で受信している。

今回デモで使用したハイスピードカメラ(970×80画素)を用いると,距離に依存する(遠距離だとより多くの画素が必要となる)ものの,理論上は最大約500台のマイクアレーの信号を一度に取得できるという。撮影した光信号はグラフィックプロセッサ(GPGPU)で並列処理することで,少ないタイムラグ(200チャンネル程度ではほぼ遅延無し)で音声に変換する。


設置した200個のカメラアレーとハイスピードカメラ

グラフィックプロセッサ(GPGPU)

同期用赤外線LED

 

デモでは,マイクアレーの左右に異なる音を発する音源を置き,仮想的に聴き手の位置や指向性を変える実験が行なわれた。ヘッドホンを用いて聞いてみると,仮想的に立ち位置を変えることで,実際に立ち位置を移動しているかのように音の聞こえ方が変化するのが分かる。また10mほど離れた位置にいる人物に指向を合わせると,雑音の多い環境下にもかかわらず,そのままでは聞こえない声をはっきりと聞き取ることができた。

特に遠くの声は,高性能マイクを用いているのかのように聞こえたが,マイクアレーのマイクは携帯電話用の安価なものだという。多数のマイクアレーを配することにより,遠くのわずかな音も集音できることをこのデモで確認できた。今回はLEDも安価な赤色が使われたが,赤外線LEDの使用も考えられるという。マイクアレーの数を増やすとコストの問題が避けられないため,低価格で実現できるのがこの方式の優れた点だとしている。

ただし,このシステムを1万チャンネル程度に大規模化するには,数多くのLED信号を捉えるためにハイスピードカメラの高画素化が欠かせない(GPGPUは現在のもので対応可能)。研究室では目標である1万チャンネルを実現するにはフルHD並みとなる200万画素が必要となると試算するが,「カメラ素子の技術革新は著しいので,近い将来にはきっとそうしたカメラが登場する」(守谷氏)と考えている。

実験では35個のマイクアレーを用い,約30メートルの伝送にも成功しているという。基礎的な部分では大規模化の見通しがついているとしており,新たな可視光通信の応用として将来が期待できる試みだと言える。