【#5 論文解説】Anime Sketch Colorization GAN

f:id:bonjiri_3939:20200920004320p:plain

こんにちは，ohashiです．

今回はマンガにおける線画の自動着色をご紹介します．

実用への期待と課題が多く残るフロンティアな領域に興味がある方はぜひ！

目的
- こんな人向け
- こんな人向けではない
論文
- Style Transfer for Anime Sketches with Enhanced Residual U-Net and Auxiliary Classifier GAN [ACPR, 2017]
できるようになったこと
- 人工物体への着色問題をStyle Transferと結び付けて解決
- U-Netの勾配消失を２つのGuided Decoderで解決
まだできないこと
- ラフ画からの豊富な特徴の抽出
- バッチサイズの拡大
所感
ohashi

目的

こんな人向け

社内で扱ったことのない深層学習分野の技術調査を始めたい．
ゼミでの論文紹介の前に論文がどんな技術か把握したい．
githubのコードを触る前に論文の要点を把握したい．
そもそも論文を読むことが苦手．

こんな人向けではない

論文内の数式を完璧に追って理解したい．(要は何がしたいのかの説明を優先します．)
著者または他者実装の追試結果，実装ノウハウを知りたい．(githubをご参照下さい．)

論文

今回まとめるのは以下の論文：

Style Transfer for Anime Sketches with Enhanced Residual U-Net and Auxiliary Classifier GAN [ACPR, 2017]

Authors: Lvmin Zhang, Yi Ji, Xin Lin

Publication: arXiv:1706.03319v2 [cs.CV]

　今回はアニメのラフ画から自動着色を行うGANベースのモデルを紹介します．

自動着色とは，グレイスケールの画像から抽出したエッジ情報や構造情報などの特徴量を使って色情報を予測し，カラー画像を復元する分野の研究です．

主な応用先として論文で良く挙げられるのが前回の記事でも紹介した以下の２つです．

bonjiri-3939.hatenablog.com

戦前などに撮られた昔の白黒写真のカラー化
漫画の自動着色

　今回の論文は後者に該当します．アニメやマンガの着色は電子版のコミックを配信する際に必要となる工程です．すでに執筆済みのコミックをあらためて全てのコマに着色するのはかなりの時間がかかります．そんな課題を解決するため，漫画やアニメのラフ画を入力画像として，自動着色した結果を出力したいというのが本研究の狙いです．

f:id:bonjiri_3939:20200607224747p:plain

できるようになったこと

2017年にZhangらが提案したこのモデルは，以下の２つの点が最大の特徴です．

人工物への着色問題をStyle Transferと結び付けて解決
U-Netの勾配消失を２つのGuide Decoderで解決

人工物体への着色問題をStyle Transferと結び付けて解決

　自動着色をする上で避けて通れない問題が”人工物への着色問題”です．自動着色をするネットワークが着色のために共通して利用している手がかりは，グレイスケールの濃度，テクスチャ，構造（画面上部には水色の空がある，画面下部には緑色の芝生がある等）などです．しかし，これらの特徴のみでは車やテント，洋服や化粧といった人工物の色を一意に決定することができません．同じテクスチャでも色味だけ変えることができるため，ネットワークは人工物の着色には致命的に弱いといった大きな課題がありました．特に，漫画やアニメのキャラクターの肌や洋服部分は，色がべた塗りされているだけのところも多く，テクスチャがそもそも存在しない領域をどう着色させるかはまだ議論があまりされていませんでした．

　Zhangらは自動着色を，画風変換モデルに代表されるStyle Transferの問題と組み合わせることで”人工物の自動着色問題”を解決しています．画風変換とは，Style画像と呼ばれる特徴的な画風を持つ画像からその特徴を抽出し，画風変換したい画像の特徴量に混ぜてから画像生成してやることで原画像に特徴的な”画風”を転写させることができるモデルです．ゴッホやモネの画風を転写する研究が印象的で有名かと思います．

　ZhangらはこのStyle画像に着色済みのキャラクター画像を指定し，そのキャラクターの髪色や洋服の色，肌の色をStyleとして特徴抽出することで人工物への着色を可能にしています．この場合，着色できる色はStyle画像の色に制限されることになります．

U-Netの勾配消失を２つのGuided Decoderで解決

　モデル構造はResidual U-Netと呼ばれる局所的，大域的な特徴量の両方を上手く抽出できるとされているモデルとStyle Transfer用のStyle画像の特徴量を埋め込む機構の組み合わせがベースとなっています．それに加えて，Residual U-Netの勾配消失を防ぐために補助的に２つのGuide Decoderを導入しています．１つ目のGuide Decoder1は畳み込みにより埋め込んだ特徴量から入力画像を復元させる機構を持ちます．これは，元の入力画像との誤差をモデルに伝播させることで入力画像の特徴量の勾配が消失しないようにするための工夫です．２つ目のGuide Decoder2はStyle画像の特徴量を埋め込んだ直後に画像を復元させる機構を持ちます．これは，着色後の正解画像との誤差をモデルに伝搬させることで，style画像の勾配が正しく伝搬するための工夫です．これにより，従来手法の着色結果よりも鮮やかな着色結果が得られています．

まだできないこと

ラフ画からの豊富な特徴の抽出

　今回使用した入力画像やStyle画像から特徴量を抽出する特徴抽出器には物体識別で有名なVGG16とVGG19を用いています．しかし，この特徴抽出器は自然物体の特徴抽出に特化した特徴抽出器であり，ラフ画の特徴を抽出することに特化しているわけではありません．学習データにラフ画が１枚も入っていないことから，むしろ特徴抽出には向いていない可能性も考えられます．これらを踏まえてZhangらは，ラフ画専用の特徴抽出器を用いることがパフォーマンス改善のための対策の一つであると述べています．

バッチサイズの拡大

　また，モデル構造の図から見て取れるように，中間層の数がとても多いためメモリの消費が大きいです．提案手法として導入された２つのGuide Decoderもあるため潤沢なメモリ資源が必要となることが見て取れます．論文中ではバッチサイズが３枚で学習を行っていますが，バッチサイズが極端に少ないとBatch Normalizationで推定する平均値とデータセット内の平均値に乖離が発生し学習が上手く進まない現象が起きる可能性があります．こういった点から，学習モデルを圧縮するような機構が必要だと考えられます．

所感

　前回に引き続きグレイスケール画像からRGB画像を復元する発想に興味を惹かれ記事にまとめました．Zhangらは自動着色分野で山積している問題の一つである”人工物への着色問題”をStyle Transferを導入することで解決しています．こういった研究を見ると，自分とは関係ないと思っている分野の研究でも必要になることがありそうですね．自分でもこういった課題解決ができる人間になれるよう，記事にまとめつつ少しづつ力を蓄えていければと思います．

次回は以前から気になっていたネットワークの重みの初期値について記事をまとめます．

ohashi

f:id:bonjiri_3939:20200818220918p:plain — おはし

　2019年入社，深層学習を扱う部署に配属．大学院では動画から脈波を抽出する研究に従事．動画像の理解，人間の魅力の解析，人間の自律神経や生体信号に興味関心．深層学習だと自然言語処理の実用化に興味関心．

　同じ研究分野の人間が利害問わず協力して研究動向を追って，初学者の方に自分が勉強した教材を利用してもらって，研究のコミュニティが広がると嬉しいですよね．AIはとっつきにくい分野ではないことを知ってほしいです．むしろ社会にも実装され始めている現在は，みんなでAIが今できることとできないことを把握して，知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います．そういった時代に向けて，情報共有の一助になれば幸いです．

ご連絡はお問い合わせフォームからお願い致します．

ohashi39.work