IN2OUT

学んだインプットをアウトプットするために始めました.誰かの力になれれば嬉しいです.

【#4 論文解説】Let There Be Color!

f:id:bonjiri_3939:20200920003118p:plain
こんにちは,ohashiです.

今回はグレイスケール画像の自動着色技術をご紹介します.

グレイスケール画像から色情報を復元する技術に興味がある方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない深層学習分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

 

論文

2016年に飯塚らが提案した下記のモデルは,以下の2つの点が最大の特徴です.

  • 物体識別と自動着色タスクの同時学習
  • 色空間上互いに独立した色差成分a*, b*の予測

Let there be Color! : Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification [SIGGRAPH, 2016]

Authors: Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa

Publication: ACM Transactions on Graphics, July,2016, Article No.:110, https://doi.org/10.1145/2897824.2925974

f:id:bonjiri_3939:20200531153848p:plain
 

できるようになったこと

明示的に物体認識タスクを解くことで着色領域ミスを改善

 従来は自動着色の学習を行う中で暗に物体を識別するための情報を学習させていると考えられていましたが,提案手法では明示的に物体識別させるネットワークを用意し,その識別誤差をネットワークに伝播させています.これにより,物体識別の精度を明示的に確保し学習に組み込むことで,物体の着色ミスの低減に貢献しています.

色差成分を予測してヒトの見えに左右しにくい着色結果を取得

 また,色情報の予測部分もPhillipらのpix2pixとは異なり,色差成分であるa*成分とb*成分の予測に変更しています.これは,予測する色情報のチャネル数が減ることで単に学習タスクの難易度が下がったというだけでなく,色空間において独立な色差成分を予測するタスクに変換したことで学習タスクの難易度を大幅に下げています.pix2pixで予測する色情報はRGBの3成分であったため,その組み合わせの総数は256の3乗=16,777,216(約1,700万)通りです.さらに,RGB成分は互いに相関を持っているため,RGB成分の組み合わせが正しく予測できていないと人間の視知覚に大きな違和感を与えます.

 一方a*成分とb*成分の予測では,その組み合わせは256の2乗=65,536通り(約6万)通りです.さらに,a*成分とb*成分は色空間上で独立になるように設計された表色系であることから,互いに相関はありません.つまり,a*成分とb*成分の組み合わせが正しく予測できていなくても,人間の視知覚には,ある程度尤もらしい画像を生成することができます.評価手法が人間による主観評価である点からも,この手法であれば自動着色の"見た目"の評価に関しては多少予測誤差に対して頑健な着色結果が得られると考えられます.

 

まだできないこと

L1損失に起因した人工物の着色

  しかし,損失関数に用いたL1損失は学習が進むと極端な損失を与えないよう学習データ内の色情報の平均色で着色するように学習が進んでしまいます.従って,着色結果にグレイスケール画像のような着色をしてしまうケースが多くあるのがL1損失のみで学習した際の課題です.

 

所感

 グレイスケール画像からRGB画像を復元する発想に興味を惹かれました.ただ実際に実装してみると結果は思ったほど綺麗に着色はされず,実用化には程遠いように感じました.損失の改善であったり,人工物に対する着色であったり,分野自体に解決すべき課題が山積しているように感じました.その分伸びしろがあるので非常に興味のある分野ですので,引き続き追っていければと思います.

 次回は自動着色について別の論文で記事をまとめます.

 

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

ohashi39.work