第21回けいはんな「エジソンの会」

開催概要

画像センシングの現状と未来

講師	岡谷貴之東北大学大学院情報科学研究科教授・理化学研究所革新知能統合研究センターチーム長島田啓一郎ソニー株式会社執行役員コーポレートエグゼクティブ
開催日時	2018年5月22日（火）　13:30～19:30
開催場所	公益財団法人国際高等研究所
住所	〒619-0225　京都府木津川市木津川台9丁目3番地
概要	昨今のAIの進展は、コンピューティングパワーの劇的な拡大により支えられていますが、もうひとつマシンが人間の五感の内、とくに視覚を持つようになったことが、AIの大きな進化に繋がったとも言われています。これまで、システムは、その入力となる現実世界の変数を人間の手で取り出してきましたが、画像データから適切な特徴量を自動的に導き出し、驚異的な画像認識の精度を実現することが可能となってきました。そこで使われた技術が深層学習であり、これまでの機械学習ではできなかった革新的なアルゴリズムとして認識され、今日の画像センシングの高度化を支えています。第21回会合では、理化学研究所革新知能統合研究センターでインフラ管理ロボット技術チームのリーダーとしてAI・ロボット技術の研究に取り組んでおられる岡谷貴之先生に、画像認識を中心とした深層学習の学術研究の最前線についてお話をいただきます。また、ソニーで組み込みソフトウェア開発や超小型化技術開発を経験後、全社の研究開発の担当役員を経て、内閣府システム基盤技術検討会や総務省イノベーション創出委員会の構成員も歴任された島田啓一郎氏に、人の眼を超えた先端イメージセンシングの紹介及び人工知能との組み合わせで万能センサの夢に近づくと題してお話をいただきます。画像認識における先端技術とそこでの深層学習の今後の展望に触れていただくことによって、AIを中心とした新たなテクノロジーがどのように活かされ、産業や社会を如何に革新していくのか、分野を超えた研究者・技術者、企業の様々な立場の皆様にも大いに参考にしていただけるものと期待しています。
配布資料	講師：岡谷貴之　「画像認識・処理のための深層学習の研究の最新動向と今後」 PDF [12 MB] 講師：島田啓一郎　「人の眼を超えた先端イメージセンシング　～人工知能との組み合わせで万能センサの夢に近づく～」 PDF [9 MB]
共催、後援、協力	【後　援】国立研究開発法人理化学研究所

タイムテーブル

13:00: 受付開始
13:30～14:50: 画像認識・処理のための深層学習の研究の最新動向と今後岡谷貴之東北大学大学院情報科学研究科教授・理化学研究所革新知能統合研究センターチーム長
15:00～16:20: 人の眼を超えた先端イメージセンシング　～人工知能との組み合わせで万能センサの夢に近づく～島田啓一郎ソニー株式会社執行役員コーポレートエグゼクティブ
16:30-17:50　: インタラクティブ・セッションご登壇者（岡谷貴之氏、島田啓一郎氏）
上田修功　「エジソンの会」スーパーバイザー
＊インタラクティブ・セッションでは講師の対談に加えて、参加者から
　　の質問やコメントも加えたインタラクティブな場とします
18:00-19:30　: 懇親会
: 主催者による記録・広報等のため、本イベントの写真撮影・録画・録音、オンライン配信、ソーシャルメディア配信等を行う場合がございますので、予めご了承ください。

当日の様子

けいはんな「エジソンの会」第21回会合は、「画像センシングの現状と未来」というテーマで開催致しました。
　現在、深層学習は人工知能研究の中心となり多くの研究で利用されていますが、特に画像センシングの分野では、精度の飛躍的な向上により、これまで不可能であった多くのことが実現できるようになっています。一方で、導かれた結果の説明は現時点では可能とは言えず、あまりの精度の向上により、現実かフェイクかの信憑性にも疑問が残る状態になっています。　　　
先端イメージセンサの分野も、驚くほどの進化を遂げ、「機械の眼」と人工知能との組み合わせによって、社会が大きく変わることを予感しました。
今後の研究テーマの中で、特に質感、人の感情、未来予測などについては、関係性が分かれば全て取り込めるとの岡谷先生の言葉に、画像センシングにおける深層学習の明るい未来が見え、今後もますます注目すべき分野であると確信しました。人工知能が人類を滅ぼすという話を良く耳にしますが、テクノロジーは道具であり、幸せのため、笑顔のため　に使うのだという島田氏の言葉が印象に残りました。ご講演頂いた内容は下記の通りです。

「画像認識・処理のための深層学習の研究の最新動向と今後」

岡谷貴之　東北大学大学院情報科学研究科教授　
理化学研究所革新知能統合研究センターチーム長

深層学習とは、ネットワークとエンドツーエンドの教師あり学習であり、入力から望む出力になるようにネットワークの重みを少しずつ修正して学習を繰り返すことで、大きな成果を上げている。
画像からの物体検出や読唇では、実用に十分耐えられる精度となり、3年前までは出来なかったポーズ認識も可能となってきた。これまでの数学モデルや物理モデルでは叶わなかったことが深層学習と言うパラダイムシフトにより実現可能となったが、なぜそこまで精度が向上するのか分からないのが現状である。
深層学習において、2つのネットを競争させつつ学習させる方法としてGAN（Generative Adversarial Network）がある。ノイズによる偽画像の生成ネットワークと真または贋画像の識別ネットワークを競わせるものであるが、様々な損失関数や学習方法の提案（ノウハウ）が必要であり、学習そのものや結果の評価が非常に難しい。しかし、他の方法よりシャープな画像が生成でき、画素ラベルからの画像生成、画面修復、スタイル変換も可能となってきた。
画像のあらゆる問題をCNNで解くためには、深層学習を十分に理解しておく必要がある。深層学習では高い性能をあげるために数億件のパラメータを持っているが、学習サンプルが数万件しかないということがなぜ成立するのか、また導かれた結果に対する説明が可能なのか、結果説明の方法としては、中間層出力の可視化、マスキングによる影響の測定、寄与度の逆算（出力側から逆伝播）、説明のための構成を最初に作成する方法などが考えられるが、それぞれに問題を含んでおり、結果に対する説明が可能にはなっていない。また、目立たないわずかな改変や実世界での攻撃でもCNNを誤認識させることが出来る。
ネットワークのデザインも進化しており、系列データを対象とした多様な問題でRNNよりもCNN(T-CNN)が一貫して優位ではあるが、ネットワークのチューニングで必ず性能が向上するわけではなく、理論的な説明ができない状況にある。
深層学習の性能の源泉はデータを使った学習とネットの構造のどちらだろうか。我々の研究室では、CAEの潜在能力を自動設計で引き出すために、標準的な畳み込みオートエンコーダを進化計算したが、複雑構造を持つ新しいネットやGAN学習に基づくstate-of-the-artの結果を上回った。
学習を一切しなくても、与えられた画像に出力画像が近くなるようにネットワークを最適化することで、ノイズ除去、画像復元、超解像が可能になるといえる。
次に、教師データの問題が挙げられる。ほとんどの学習データは、数が集まらず、正解を人が決めるので曖昧で当てにならない。少ない学習データでも対応できるように、転移学習やデータ拡張、GANによる学習データ生成、CGによる合成、ドメイン適応などの研究が盛んではあるが、特効薬はない状況である。
質感研究として多元質感知の研究に取り組んでいる。脳科学研究の大きなミッシングピースであり、ユーザが満足する質感を持ったプロダクトや質感を判断して適切に働くロボットを作るなど、工学的には技術革新の宝庫と捉えているが、刺激入力、質感反応、計算原理の推定が難しい。質感の画像認識は、光沢感、透明感、柔らかさ、など人が何を感じているか、それらをどう測るかが問題であり、質感形容詞の画像比較を行い、人が選ぶ答えをCNNでアウトプットさせたり、質感を表現する語彙のマイニング、視覚認識可能な概念の自動発見、画像から質感を捉えた表現の生成研究などを行っている。
画像の理解を進めるために、視覚特徴と言語特徴のより良い融合を図り、アテンションを軸にしたVisual Question Answering(VQA)への適用を研究している。VQAの世界コンテストで当研究室は第3位の成績を上げたが、質問から画像のどこを見るか、詳細な構造をネットワークでデザインする研究で成果を上げている。　
最後に、ロボットへの適用だが、深層強化学習による室内ナビゲーションの例を見ても、現在はロボットが行ける範囲は事前に学習した部屋のみである。実世界への適応を可能にするために、自動運転で画像からステアリング操作出力をCNNが直接計算する方法や、マニピュレータのpick&place、一人称視点3次元ゲームプレイでの各行動の将来の結果の学習・予測など、視覚運動制御をパタン認識で解く研究を進めている。
深層学習の実利用は広がってはいるが、乏しい説明性や逐次的な「改善」が困難であり、工学としての機械学習(深層学習)の特殊性が足かせとなっている。深層学習の研究は、ネットワークのデザイン研究とデータの収集と言ってもよく、「一を聞いて十を知る」の実現を目指し、今後も汎用能力の向上とシステマチックなネットワーク構造の設計に取り組んで行きたい。

「人の眼を超えた先端イメージセンシング　～人工知能との組み合わせで

島田啓一郎　ソニー株式会社執行役員コーポレートエグゼクティブ

第4次産業革命時代を迎え、当社は人の眼を超えた先端のイメージセンサ・カメラ技術を通して、人工知能に最強の実世界情報を提供することに取り組んでいる。
カメラの感度については、ISO 40万を実現し、月明り・星明りでもカラー動画が撮れるようになったことで、防犯、防災、自動車などIoTの用途として利用が見込まれている。また、人の眼は違いを見るのに100数十コマが限界であるが、秒960コマの4K HD動画を実現することにより、林檎を射抜く瞬間や水風船を針で割る瞬間などを捉えることができ、製造、スポーツ、自動車などへの用途として期待が高まっている。ハイダイナミックレンジにより、明るさの幅を広げ、炎天下のまぶしさや地下の暗さを同時に見ることが出来るようになり、監視、自動車、建設関係などでの利用が可能である。
人の眼のレベルであった従来のカメラは、先端イメージセンシングへと進化し、人工知能との組み合わせで、これまで出来なかったことが可能となってきた。超高精細・多画素とAIを組み合わせれば、スタジアムで千人規模の顔が同時に判別可能となる。「波長分解能」と「可視光外」センシングでは赤緑青以外も細かく検出し、例えばアミノ酸の分光特性を利用して甘いメロン、新鮮な野菜などの判別ができ、AIとの組み合わせで農業・食品・健康サービスなど多くの用途に応用が可能となる。また、「偏光センシング」を実現することで、雨の日の道路状況、反射で見にくい窓越しや水面下も見ることが可能となり、自動車・交通・建設などへの活用用途が広がっている。画面内距離測定による3次元計測で、リアルタイムダイナミックマップなどへの応用も可能である。
　半世紀にわたりイメージセンサ開発を行ってきたが、開発の変遷の中で、特に裏面照射技術が感度を劇的に向上させ、積層型技術開発と人工知能との組み合わせで、今後も飛躍的な向上が見込まれる。現在はもはや人の眼を超え、人工知能との組み合わせで「機械の眼」の時代に入った。IoTイメージセンシングによる空間把握に加え、感知対象に人物や生体、温度・湿度・雰囲気・感情などを含めた環境把握を行い、人工知能・画像処理・ビッグデータとの組み合わせで万能センサの実現を目指し、先端イメージセンシングで得た実世界の可能な限りの情報を人工知能に取り込んで、最強の実世界情報を作ろうと考えている。今後イメージセンサはあらゆるサービス産業の「機械の眼」になるだろう。
これまでは、人よりもコストパフォーマンスに優れた道具の利用が産業革命を牽引してきたが、第4次産業革命、Society5.0時代には、実世界情報の自動把握や機械の自律動作およびアルゴリズムの自動生成を通して、人は高度な対人業務や創造的業務に移行していくことになるだろう。
また、「ＩｏＴ・ビッグデータ・人工知能・ロボット」をデータフローの観点から見た場合、実世界からセンシングされたデータは通信網にて収集され、ビッグデータとしての利活用サービスに転化、制御され、実世界へロボットやディスプレイなどの形で提示される。これらは一連のエコシステムを構成している。
　我々の暮らしのあらゆる場面でイメージセンサが大きな役割を果たすようになってきており、個々の場面でセンシングされたデータが、一連のエコシステムを構築しているので、個々の課題への対応ではなく、社会全体を捉えた上での、産業化に向けた課題解決が必須と考える。
　我々には、時間や空間や場所という物理的制約に加え、ルールや慣習、通信・電力・交通などの社会基盤における社会的制約や、コスト・投資等の経済的制約など、多くの制約が存在している。それらの制約からの解放が生活文化と産業を創造してきた。直近の10年間の進化を見ると、生身の人の情報能力や寿命や物理社会の大きさはほとんど変化していないが、映像の秒あたり画素数は10倍となり、地球合計または人口当たりの記憶容量・演算能力・伝送速度は百倍を上回っている。巨大クラウド能力、モバイル・インターネット通信需要においては千倍以上の進化を遂げており、「桁違いの差」（ひずみ）への対応が新たな事業チャンスを生み出している。今後ますます進化するであろうイメージセンシングを取り巻く技術によって、新たな事業を生み出し、社会の発展にさらなる貢献をしていきたい。

[インタラクティブ・セッション]

国際会議での深層学習の注目度、データ活用と個人情報保護、GDPRガイドライン、次世代医療基盤法案と画像処理、仏画の霊気・人の心のセンシング、深層学習における技術者や研究者に求められる素養・能力、人材育成の方向性、画像認識の真贋判別、ドローンとイメージングセンシング、建物等の色感と深層学習への応用、エッジ側と上位側での深層学習の役割、深層学習を分割することについての問題など幅広い意見交換がされました。