新着情報

AIによる画像処理技術のシンカ ~深層学習を用いた写真の審美的品質評価と判断根拠の可視化~

令和2年9月5日(土)、12日(土)に開催した、令和2年度 岡山県立大学の公開講座『私たちの生活を変えるAI』は受付開始数日で定員に達するという大変な反響をいただきました。多数のお問い合わせお申込み誠にありがとうございました。

AI(人工知能:Artificial Intelligence)は日常生活やビジネスなどあらゆる場面での利用が期待されており、どういった場面で、どのようなことに対して、どのように使われるかなど、様々なメディアにおいて新しいAIの利活用の話題が発信され続けています。

AIの歴史は古く、人間の脳が行っている学習・推論・判断という処理を計算機上で実現することを最終目標とし、これまで多くの研究者が様々な技術を提案してきました。現在、第3次AIブームを迎えており、ディープラーニング(深層学習)に基づく技術が多く提案されています。ディープラーニングは、人間の脳神経系を抽象化し、情報の分散処理システムとしてとらえた数理モデルのニューラルネットワークを多層化したものです。さらには、判断根拠の説明性・解釈性を明確にするAI(eXplainable AI)と呼ばれる技術分野がAI技術の利活用を広げるため注目されており、急速に進展しています。

令和2年度 岡山県立大学の公開講座『私たちの生活を変えるAI』にてテーマ「AIによる画像処理技術のシンカ」の講師を務めた滝本准教授にお話しを伺いました。先生は現在、画像認識分野において写真に対する審美性評価(デザイン分野)と工業製品の外観検査(ものづくり分野)に着目し、説明可能なAI技術を用いた熟練作業者の暗黙知(知識)の形式知化を目的とした研究に取り組んでいます。
<INTERVEW>
これまで、ヒューマンセンシング(人の動作認識に関する研究)や目立ち度の可視化技術(視覚的顕著性の計算モデルに関する研究)、視覚的顕著性に基づく注視誘導などを研究し、大学に寄せられる様々なニーズの実現に向けた基盤技術の研究開発を行ってきました。画像認識分野においては、深層学習に基づく畳み込みニューラルネットワーク(Convolutional Neural Network : CNN)が、一般物体認識のタスクにおいて人による認識精度に迫る高い性能を達成しており、物体検出や画像セグメンテーション、画像生成などの分野へと広がりを続けています。
画像_全方位カメラ映像に対する人物追跡 目立ち度の可視化技術(視覚的注意の計算モデル)
ヒューマンセンシング(人の動作認識に関する研究)
全方位カメラを用いた人物追跡・異常検知
 ⇒見守りシステムへの応用
目立ち度の可視化技術(視覚的顕著性の計算モデルに関する研究)
視覚的注意(誘目性)に影響を及ぼす特徴を明らかにし、計算モデル化
一方で、画像処理に関連する産業界でのAI技術の実利用は未だ限定的です。画像中に存在する人や部品といった特定物体の検出や認識、個数カウントなどといったような人による単純作業を自動化する用途、いわゆる“AIの一次的利用”が主であるといえます。現場におけるAI技術利用の障壁となっている理由として、AIがどのような観点で判断しているのかが不明である(ブラックボックスである)ことが挙げられ、AIへの不信や導入への阻害に繋がっています。

この問題を解決する一つの手段として、判断根拠の説明性・解釈性を明確にするAI (eXplainable AI : XAI)と呼ばれる技術分野が急速に進展しています。画像認識タスクに関するXAIとしては、判断に寄与した領域を可視化する技術であるClass Activation Mapping (CAM)が注目されています。

私たちの研究室では、写真に対する審美性評価(デザイン分野)と工業製品の外観検査(ものづくり分野)に着目し、現場作業者の熟練(いわゆる経験と勘)といわれる暗黙知(知識・技能)について、よりコストをかけずに獲得する技術の確立を目的とした研究を行っています。両タスクとも、画像そのもの、もしくは画像に写る対象の良し悪しを判断することを目的としていますが、その判断に影響を及ぼす特徴(知識)は当然異なります。私たちは、CAM等を用いて判断に寄与した画像領域を可視化するだけではなく、両タスクに対する判断根拠を詳細に分析しています。具体的には、審美性推定タスクについては、構図やぼかしなどの写真撮影技術として既知の知識以外、すなわち暗黙知に基づく審美性推定の可能性を明らかにすることを目標としています。一方、外観検査タスクについては、製品を異常と判断する根拠となった部位(異常部位)の様々な画像特徴を抽出し、熟練技術者の暗黙知を画像特徴によって説明することを試みています。


ここでは、写真の審美的品質評価に関する研究について簡単にお話しします。写真の審美的品質評価とは、人が感覚的に写真を好むかどうかを定量化したものです。私たちの研究室では、岡山市のデザイン会社との共同研究として、深層学習を用いて写真の審美的品質評価の自動化に取り組んできました。写真の審美的品質評価が可能になると、より審美的に品質の高い写真へと加工することができ、画像検索や画像編集などの幅広いアプリケーションに有用です。

現在、審美的品質評価の自動推定機能を持つCNN モデルに対して判断根拠の可視化技術を適用することにより、審美性評価に寄与する特徴を明らかにすることを目的とした研究を進めています。一般的に、審美的品質の高い写真(良い写真)を撮影するためには、構図や明るさ、ぼけ、色彩などの様々な要素を考慮する必要があるといわれています。私たちの研究室では、写真撮影で重要と考えられている要素の中でも特に構図に注目し、「審美的品質評価の自動推定機能を持つCNN モデル」が審美的品質推定の判断根拠として構図を考慮しているかについて検証を行っています。CNNの学習した概念を可視化する技術としてGrad-CAM++を利用しており、ネットワークの勾配情報と入力データのクラス情報を補助情報として併用することにより、推論時の各クラスの注目領域とその度合いを意味すると特徴マップを獲得します。Grad-CAM++によって得られたマップ群に関してx-meansを用いてクラスタリングを行います。

実験結果の一部を紹介します。写真の審美性推定に関する研究でよく用いられている写真データベースAVA-datasetからlandscapeタグが付与された高品質1500枚を用意し、審美的品質評価の自動推定機能を持つCNN モデルに適用しました。その後、CNNモデルによって高品質と正しく判断された写真群に対してGrad-CAM++を適用し特徴マップを求めました。そして、得られた特徴マップ群に対してx-meansを適用し、16個のクラスタに分割されることを確認しました。例として、特徴マップ群の各クラスタ中心について、原画像と特徴マップを可視化したもの、さらにはそれらを統合したものを以下に示します。なお、(b)の特徴マップについては、明るい領域ほど「高品質と判断した際の根拠となった領域である」ことを意味しています。この可視化結果より、日の丸構図や三分割構図など代表的な構図を考慮していることが確認できます。さらには、審美性を推定する際に考慮する特徴は風景写真やポートレート写真など対象によって異なるかについても検証を行っています。
(a)元画像 (b)構図 (c)注視領域
(a)原画像 (b)可視化した特徴マップ (c)統合画像
Grad-CAM++により得られた特徴マップの例(16クラスタ)
このように、人・熟練者が経験的に獲得し無意識に用いている暗黙知について、AIを用いることで形式知化することにより、産業界へのAI導入のブレイクスルー“AIの二時的利用”に繋がると考えています。また、世界規模で進む労働人口の低下とそれに伴う熟練技能者の不足の解決に寄与し、人と機械が互いに成長する未来の実現に繋がることが期待されます。
<情報通信工学分野の専門家を目指すみなさんへ>
情報通信技術の進展により、様々な場面でビッグデータと呼ばれる多種多様かつ膨大なデータが集積されています。また、今まさに世界は第3次AIブームを迎えており、ネットワークとデータの活用による付加価値の創出が期待されています。

私の所属する情報通信工学科では、情報工学・通信工学・電子工学について高度な専門技術を学ぶとともに、これからの基礎知識を実際の問題解決に応用する能力を養うことを目的とした教育に取り組んでいます。また、本学科での教育と研究を通して、今後の急速な技術革新に対応できる基礎・知識に裏打ちされた創造力と技術者倫理を身につけていただければ幸いです。これからも発展を続けるAI・IoTを支える技術者・研究者をめざして、若さと意欲と夢に満ち溢れた皆さんの挑戦を期待しています。
  
(お問い合わせ)


 
滝本准教授

 
■岡山県立大学情報工学部情報通信工学科
 数理情報メディア工学研究室
 准教授 滝本 裕則
   
  • 専門分野:画像・信号処理、知覚情報処理
  •  
  • 研究の概要:【視覚的顕著性を利用した画像処理技術】視覚的顕著性に基づく注視誘導の実現, [1]. H. Takimoto, 他4名: ``Image Modification Based on Spatial Frequency Components for Visual Attention Retargeting'', IEICE Transactions on Information and Systems, Vol. E100-D, No. 6, pp.1339-1349 (2017) 
    [2]. 滝本 裕則, 他3名: ``注視誘導のための視覚的顕著性を利用した動画再配色'', 電気学会論文誌C, Vol. 137-C, No. 1, pp.144-151 (2017)
    [3]. H. Takimoto, K. Yamamoto, A. Kanagawa, M. Kishihara, and K. Okubo: ``Attention Retargeting Using Saliency Map and Projector Camera System in Real Space'', IEEJ Transactions on Electrical and Electronic Engineering, Vol. 14, Issue 6, pp. 853 - 861, DOI:10.1002/tee.22874, (2019)
     
  • 相談、共同研究可能なテーマ:
  • 1.画像・生体信号を用いたシステム開発
  • 教育研究者総覧から抜粋)
    http://www-mcs.c.oka-pu.ac.jp/takimoto/index.html