「画像認識」と聞いて何を思い浮かべるだろうか? スマートフォンの顔認証?QRコードの読み取り?Googleレンズ?最近では自動車や配送ロボットの自動運転でも使われている。また、古くから、郵送物の仕分けや工場内での製品の欠品チェックなど、自動化や省力化、見落とし防止などの目的としても使われている。医療現場では、X線CTなどで得られた画像を認識させることにより、診断の見落とし防止などに役立てている。さらには、プロジェクションマッピングなど、エンターテインメントの分野でも活用され始めてきているのだ。
「このように、画像に何が映っているかをコンピュータが認識する技術を『画像認識』と呼んでいます。魔法の技術のように思われますが、現在の画像認識技術の多くは足し算や掛け算などの単純計算の組み合わせで構成されています。2010年頃までは複雑な計算式やさまざまなアルゴリズムを用いた画像認識手法が主流でした。研究者や技術者は認識対象に応じてどのアルゴリズムが有効か、どの計算式が有効かを日々研究していたのです。こちらの方が単純計算よりも認識精度が上がりそうです」と話すのは駒形英樹先生だ。
実は、人間や動物も画像認識をしているのだ、と駒形先生は言う。眼球に入り込んだ光を視細胞が電気信号に変え、神経細胞(ニューロン)に電気信号を受け渡す。神経細胞は何層にも重なっており、信号を受け渡す際に信号を弱めたり複数の神経細胞から信号を受け取ったりしている。
「このような単純な仕組みにもかかわらず、人間はどのような物体でも認識することができています。そこで、足し算や掛け算などの単純計算のみで画像認識の精度を上げることができないかを、陰ながら研究していたグループがいました。そして、2012年の画像認識コンテストにおいて大差で優勝し、単純計算のみで画像認識が可能であることを証明したのです。この手法は深層学習(ディープラーニング)と呼ばれ、現在では音声認識や言語の翻訳、また、データサイエンスの分野でも主流になっています」と駒形先生。
この深層学習が主流になったとはいえ、その準備には膨大なマシンパワーが必要となる。認識の際も多少のマシンパワーを必要とする。
「従来の手法でも、十分な精度であれば、それに越したことはありません。いずれの手法でも現在はライブラリが揃っており、少しのプログラミングで画像認識アプリケーションを作成することができるようになっています」さらに最近は、対象物までの3次元位置を取得できる「深度センサ」や、全方位撮影可能な「360度カメラ」、人間が感知できない光を測定する「マルチスペクトルカメラ」など、人の視覚を超える特殊な画像入力装置が市販化されている。深度センサは自動運転やジェスチャ認識に、360度カメラは建設現場の記録に、マルチスペクトルカメラは農作物の生育状況の把握などに活用され始めてきているのが現状だ。
「私の研究室でも、これらの画像機器や画像認識技術を用いて、医用画像やスマート農業など実社会のさまざまな課題解決のための研究を予定しています。また、ジェスチャ認識を取り入れた、インタラクティブなアプリケーションやゲームの開発も予定しています」