IN2OUT

学んだインプットをアウトプットするために始めました.誰かの力になれれば嬉しいです.

【#17 論文解説】Mask TextSpotter: Spotting Text with Arbitrary Shapes

f:id:bonjiri_3939:20200921234848p:plain
こんにちは,ohashiです.

今回は情景内文字認識をご紹介します.

画像処理に自然言語を組み込んだモデルに興味がある方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

論文

 今回は,屋外などの自然画像の中から文字列を検出し認識する情景内文字認識モデルについてご紹介します.古くから研究されており,様々な先行研究が凝縮された内容となっております.応用先は自動運転中の文字認識などが挙げられます.

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes [ECCV2018, ICDAR 2019 Comp]

Authors: Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, Xiang Bai

Publication: arXiv:1807.02242v2 [cs.CV]

 

できるようになったこと

任意の形に対応したEnd-to-Endな情景内文字列認識モデルの学習

 従来の情景内文字列認識手法は,前回の文字列認識手法と同様,文字領域を予測するステップと,予測した領域から文字列を認識するステップの2段階に分ける手法が主流でした.提案手法では,4つのモジュールからなるニューラルネットワークを学習させることで上記の情景内文字認識を,1ステップの学習で実現しています.

  • FPNで入力画像の大域的・局所的な特徴量を抽出し,
  • RPNで予測領域の候補を選択し,
  • Fast R-CNNで領域を決定し,
  • (新規)Mask branchでSemantic SegmentationとGRUを用いた文字種の認識を行います.

 学習させるモジュールが増えた分,学習の難易度が挙がっていますが,論文記載のパラメータで学習させることで従来手法よりも10%以上優れたスコアを報告しています.

セマンティックセグメンテーションと言語モデルによる頑健な文字列認識

 スライドp.16にあるように,新規に提案されたモジュールMask branchでは2種のセマンティックセグメンテーションと1種の言語モデルによる文字列認識を学習させています.図上段のText Instance Segmentationでは,Fast R-CNNで決定された文字列領域から文字列の領域をセマンティックセグメンテーションで予測します.これは不要な領域を文字列認識に含むのを抑制することを狙っていると解釈できます.図中段のCharacter Segmentationでは,各文字の領域をセマンティックセグメンテーションで予測します.これが提案手法の1つ目の文字列認識手法です.さらに,図下段のSpatial Attentional Moduleでは,特徴マップからSelf-AttentionとGRUを用いて直接文字列を識別します.これが,提案手法の2つ目の文字列認識手法です.ここでLSTMではなくGRUを用いている理由は(i)GRUの方が学習させるパラメータが少ない,(ii)文字列の文字数が少ない,ためだと考えられます.最後にCharacter SegmentationにPixel Votingを行って出力した文字列と,Spatial Attentional Moduleで出力した文字列の,確信度が高い方を最終的な文字列認識結果として出力します.上記の工夫により,

  • 文字列の予測領域を段階的に絞る,かつ
  • 画像認識と言語モデル2通りの手法で文字列を認識し,確信度が高い方を予測結果として出力.

することで語順の入れ替えミスによる誤認識に頑健な文字列認識手法を実現しています.

 

まだできないこと

正確な候補領域の選定

 論文中では候補領域の正確な抽出を今後の課題として述べていました.提案手法では,先行研究で使用していたRoI PoolingとRoI alignの内,より正確なRoI alignを採用していましたが,それでも認識精度に起因するほどの候補領域のずれが生じるようです.

 

所感

 今回は画像処理と自然言語処理を組み合わせた情景内文字列認識手法についてご紹介しました.非常に多くの先行技術を組み込んだ手法でしたが,特に候補領域の選定部分に課題が残っているようです.これをベジエ曲線により改善したABCNetが翌年のCVPRに採択されていたため,この手法はすぐに改善されてしまいます.なるべく最新の研究を追えるように論文をまとめていきたいと思います.

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

 

ohashi39.work