【#1 論文解説】Alex Net, FCN, U-Net
こんにちは,ohashiです.
CNNの基盤技術となる論文3本をご紹介します.
深層学習を始める第一歩にぜひ!
目的
こんな人向け
- 社内で扱ったことのない深層学習分野の技術調査を始めたい.
- ゼミでの論文紹介の前に論文がどんな技術か把握したい.
- githubのコードを触る前に論文の要点を把握したい.
- そもそも論文を読むことが苦手.
こんな人向けではない
- 論文内の数式を完璧に追って理解したい.(要は何ができるかの説明を優先します.)
- 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)
論文
今回は以下の3つの論文をまとめました.
Alex Net: ImageNet Classification with Deep Convolutional Neural Networks
Authors: Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton
Publication: NIPS'12: Proceedings of the 25th International Conference
on Neural Information Processing Systems - Volume 1December 2012 Pages 1097–1105
FCN: Fully Convolutional Networks for Semantic Segmentation
Authors: Jonathan Long, Evan Shelhamer, Trevor Darrell
Publication: arXiv:1411.4038v2 [cs.CV]
U-Net: Convolutional Networks for Biomedical Image Segmentation
Authors: Olaf Ronneberger, Philipp Fischer, Thomas Brox
Publication: arXiv:1505.04597v1 [cs.CV]
できるようになったこと
汎化性能(=未知のデータも正しく識別できる性能)の向上
Alex Netの論文中に登場した技術の一つに,ドロップアウトがあります.
学習中にニューロン(=重み係数内の一つのパラメータ)を10%~20%の確率で欠落させる(=ゼロに設定する)ことで潜在的に複数のネットワークを学習させていることに相当すると論文中で述べられています.これは一般的に受け入れられ,現在でも多くのモデルに採用されています.これまで学習していた重み係数が突然ゼロになるため,他の重み係数が頑張っていなくなった係数の分もカバーしようとしている,という解釈でしょうか.
解像度に依存しない畳み込みニューラルネットワークの学習
従来のネットワークは,入力と出力のニューロン数(重み係数の数)を指定する全結合層があったことから,解像度が固定されていました.FCN(Fully Convolutional Networks)では,全結合層を廃止することで解像度に依存しないネットワークモデルが構築できるようになります.とはいえ畳み込み層の窓の大きさは変わらないため,大き過ぎる画像を入力にしては論文と同じパフォーマンスが発揮できないことは容易に想像できます.その際は畳み込み層を増やすか,畳み込み層の窓を大きくする等して対策することが考えられます.
高周波成分の特徴を維持した低周波成分の特徴の抽出
FCNでも登場しますが,U-Netではスキップコネクションと呼ばれる技術が登場します.従来の畳み込みニューラルネットワークでは,畳み込み層とプーリング層を経ることで徐々に特徴量マップが小さくなっていく,つまり画像内の特徴量がより高次元のマップに圧縮されていく,というアプローチでした.しかし,U-Netで解こうとしているようなセグメンテーション(=ピクセル毎のクラス分類)では特徴マップが低解像度だと物体の位置情報と大きなずれが起きてしまうため,できるだけ特徴マップの解像度を保った状態で物体のセグメンテーションを行いたいという動機がありました.浅い層の特徴マップ(=高周波成分が多く含まれる)を深い層の特徴マップ(=低周波成分が多く含まれる)に連結する,これを階層的に繰り返していくことで豊富な特徴量を維持した原画像と同等のサイズの特徴マップを取得できるようになりました.これがスキップコネクションです.
まだできないこと
570×570より大きな解像度の画像の学習
物体認識が目的のAlex Netは入力画像のサイズを228×228で統一しています.全結合層の性質上というのが最も大きな理由ですが,実世界でこのサイズの画像を識別したくなるような場合は中々見つかりません.U-Netでようやく入力画像に572×572のサイズの画像を使用していますが,Alex Netの画像サイズを知っていればこそ大きく感じる程度のサイズかと思います.FCNの項目で述べたように畳み込み層を増やしたりカーネルサイズを大きくすれば対応できないサイズではないですが,そうするとパラメータの数が増えて学習が収束しにくくなるという別の課題が出てきます.深層学習の火付け役となった当時の論文ですので,これらの課題はネットワークの工夫や,主にGPUマシンの目覚ましい進展により解決されるのですが,当時ではこの解像度での学習が限度だった,と考えるのが妥当のようです.
所感
今回は原初的な論文からスタートしました.
学術論文は研究するにあたった背景や先行文献との優位性,新規性を示す観点から,ボリュームのある一つのお話のようになっています.この記事では,そんな論文を要約して『できるようになったこと』と,『まだできないこと』の2つの観点からまとめていきます.深層学習は本当に活発なコミュニティのため,知識ばかり詰め込んで頭でっかちにならないように気を付けています.
これから読む論文も,徐々に最新の実用的な論文にシフトしていければと思います.
ohashi
2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.
初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいです.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.
ご連絡はお問い合わせフォームからお願い致します.