【#12 論文解説】End-to-End Object Detection with Transformer

f:id:bonjiri_3939:20200921171818p:plain
こんにちは，ohashiです．

今回はTransformerを使った物体検出をご紹介します．

画像処理と自然言語処理の組み合わせに興味がある方はぜひ！

目的
- こんな人向け
- こんな人向けではない
論文
- End-to-End Object Detection with Transformer [arXiv, 2020]
できるようになったこと
まだできないこと
- 小物体の検出
所感
ohashi

目的

こんな人向け

社内で扱ったことのない分野の技術調査を始めたい．
ゼミでの論文紹介の前に論文がどんな技術か把握したい．
githubのコードを触る前に論文の要点を把握したい．
そもそも論文を読むことが苦手．

こんな人向けではない

論文内の数式を完璧に追って理解したい．(要は何がしたいのかの説明を優先します．)
著者または他者実装の追試結果，実装ノウハウを知りたい．(githubをご参照下さい．)

論文

　今回は自然言語処理分野で有名になったTransformerを使った物体検出DETR(デター，と読むようです)について紹介します．物体検出と言えばSSDやYOLO，Mask R-CNNなどが有名ですが，今回はFacebook AIグループが，機械翻訳で登場したTransformerを使って物体検出をした，という報告です．Transformerと言えば畳み込み層を用いないニューラルネットワークというのが特徴の一つとして有名ですが，実際にどのような検証結果になったのでしょうか．

End-to-End Object Detection with Transformer [arXiv, 2020]

Authors: Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

Publication: arXiv:2005.12872v3 [cs.CV]

20 End-to-End Object Detection with Transformer from Ryohashi

できるようになったこと

NMSによる後処理やAnchorの生成を用いない物体検出

　物体検出の走りであるSSD: Single Shot Multibox Detectorでは，矩形の候補を約8000個最初に生成しておき，正解と最も重なっているいくつかの矩形を残して，不要な矩形候補は削除していくNMS: Non Maximal Supressionと呼ばれる処理を行っていました．また，R-CNNやYOLOでは，データセット内のオブジェクトサイズに基づいて事前に生成される矩形をAnchorと呼び，こちらも同様，学習と共に不要なAnchorを削除して物体を検出していきます．このように，従来の物体検出は最初に大量の矩形の候補を生成しておいてから，徐々に欲しい矩形以外を除去する，という手法を採用してきましたが，DETRは欲しい矩形を直接出力するよう学習させます．入力が画像に対して，出力は[矩形の中心のx座標，矩形の中心のy座標，高さ，幅，クラス]です．

　従来手法がなぜこのように学習させなかったのかは，おそらく，従来のネットワークでは画像中から矩形の候補を１発で求められるだけの特徴抽出が行えていなかったのではないかと考えます．今回，それを実現できるようにしたのがTransformerです．Transformerはself-Attentionをはじめとする３種類のAttention機構のみからなるニューラルネットワークです．Transformerの１番の強みは，特徴マップのどこを見れば，今回であれば物体が検出できるか，という点に特化して学習が行えることです．これにより，NMSによる後処理やAnchorの生成を用いない１発の物体検出が可能になっています．

正確なエッジの検出

　スライドp.23のAttention mapの可視化にあるように，encoderの最終層の時点で各物体のインスタンスにAttentionが割り当てられていることが確認できます．さらに，p.24ではdecoderのAttention mapが物体のエッジである頭や足に特に強く向けられていることが確認できます．このことから，物体検出に求められるエッジ領域までの細かい検出に強みがある手法だと解釈できます．

正確なエッジを利用したPanoptic Segmentation

　スライドp.26では，decoderのAttention mapからsegmentation mapへ変換した結果を報告しています．panoptic segmentationでは，従来では区別できなかった同一ラベルの物体も，例えば，車１，車２，のようにインスタンス（実体）毎にラベルを振ることができるようになっています．p.27の結果から分かるように，COCOデータセットでは最近のUPS-Netよりも優れた結果を報告しています．

まだできないこと

小物体の検出

　論文中で少しだけ述べられていましたが，小物体の検出が未だ課題のようです．特徴抽出では通常のResNetを使用しているため，ここで小物体に対応した特徴抽出を行う必要があると考えられます．著者らは，特徴抽出を行うBackbornの段階でdilated Convolutionを実施したが，あまり効果的ではなかったと述べています．小物体の検出は実社会での応用の際に需要があるため，個別で改良を加える必要がありそうです．

リンク

所感

　今回は，Transofrmerを使った物体検出をご紹介しました．畳み込み層のみを使っていた従来の物体検出手法とは一変して，畳み込み層を用いないニューラルネットワークで高精度な物体検出を実装されており，特にSelf-Attentionの汎用性の高さに驚かされました．このような，画像処理と自然言語処理の技術分野が融合して，何か１つの課題を解決する，という分野が流行ってくるのではないかと感じました．著者らも述べているように，今回はTransformerに対してとりあえず画像をあてはめて検証したと述べていることから，これからより実用的な議論に発展していくのではないかと考えます．次回は，再び文法誤り訂正の論文をご紹介します．

ohashi

f:id:bonjiri_3939:20200818220918p:plain — おはし

　2019年入社，深層学習を扱う部署に配属．大学院では動画から脈波を抽出する研究に従事．動画像の理解，人間の魅力の解析，人間の自律神経や生体信号に興味関心．深層学習だと自然言語処理の実用化に興味関心．

　同じ研究分野の人間が利害問わず協力して研究動向を追って，初学者の方に自分が勉強した教材を利用してもらって，研究のコミュニティが広がると嬉しいですよね．AIはとっつきにくい分野ではないことを知ってほしいです．むしろ社会にも実装され始めている現在は，みんなでAIが今できることとできないことを把握して，知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います．そういった時代に向けて，情報共有の一助になれば幸いです．

ご連絡はお問い合わせフォームからお願い致します．

ohashi39.work