IN2OUT

学んだインプットをアウトプットするために始めました.誰かの力になれれば嬉しいです.

【#15 論文解説】KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition

f:id:bonjiri_3939:20200921173926p:plain
こんにちは,ohashiです.

今回は近代以前の日本語『くずし字』の文字認識技術をご紹介します.

ページ画像からの一括文字列認識に興味がある方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

論文

 今回は,画像から文字列画像を認識する技術についてご紹介します.ページ画像を入力として,文字の位置と文字種を同時に予測する点が特徴的です.扱う文字種は近代以前の『くずし字』であり,著者らは,歴史ある文化財,その中でも今回は書物をディジタル化して保存するディジタルアーカイビングを目的として活動を行っているようです.活字の文字認識と異なり,文字がある程度くっついていたり,領域が重なっていたりする点と,学習データ数が少ない点から学習タスクの難易度は高いと考えられますが,過検知と未検知を考慮したF1スコアは0.85という高いスコアが報告されています.

KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning [ICDAR, 2019]

Authors: Tarin Clanuwat, Alex Lamb, Asanobu Kitamoto

Publication: arXiv:1910.09433v1 [cs.CV]

 

できるようになったこと

ページ画像を入力とした一括文字列認識

 従来の文字認識は,見開き1ページ分の画像から文章のみを切り出してきた細長い文字列画像を入力として,まず,どこに文字の区切りがあるのかを予測するタスクを学習させます.その後,文字列を文字に分割した状態で文字種を予測するタスクを学習させる,2段階のアプローチが取られてきました.2段階のアプローチの欠点は,文字を区切れないとどんなにがんばっても文字種の認識精度は向上できない点です.提案手法では,これを回避するために,セマンティックセグメンテーションによる一括文字列認識手法を提案しています.スライドのp.5のように画像のセマンティックセグメンテーションのために開発されたU-Netに,一般物体認識タスクで非常に優秀な精度を示したResNetを組み込んだResU-Netを採用しています.U-Netは局所的かつ大域的な特徴表現の獲得を狙って作られたネットワーク,ResNetは漏れのない特徴表現を獲得することを狙って作られたネットワークと解釈できます.つまり,局所的かつ大域的な特徴表現を抜けもれなく獲得しようとしているネットワークだと解釈できます.これを使って,ページ画像内から文字種を直接予測しています.

Teacher forcingによる学習の安定化

 上記セマンティックセグメンテーションのタスクは,高い解像度を持つ画像の各ピクセルが何のクラスに属するのかを予測しなくてはいけないため,損失関数の値が安定せず,学習が収束しづらいという課題があります.これに対し,著者らは自然言語処理の文章生成の分野でよく使われるTeacher forcingと呼ばれる工夫を取り入れています.Teacher forcingは,学習の初期段階では一定の確率で予測結果を教師データからコピーして学習させる手法です.これにより,学習の初期段階で学習を上手く機能させることで,学習の方向性を定め学習自体を収束させやすくする効果があります.これを取り入れることで学習難易度の高い一括文字列認識の安定した学習を実現しています.

 

まだできないこと

サイズが大きい文字の認識

 書籍のタイトル等,サイズが大きい文字に認識の取りこぼしがあったと報告しています.これは,書籍内の文章がタイトルと比較して小さい文字が多いためだと考えられます.学習していく内に,識別器が比較的小さな文字を捉えるように最適化されていったためだと考えられます.

類似形状の文字の認識

 『紫』と『柴』,『羊』と『芋』のような文字種については誤識別が確認されています.手書き文字かつここまで形が似ていると,現状では誤識別を起こすようです.学習タスクの難易度の高さがうかがえます.

 

所感

 今回はページ画像から一括で文字列を認識する手法をご紹介しました.とても直感的かつわかりやすい手法で,ある程度の精度が出ているため,興味が湧いて読んでみました.歴史的文献にも深層学習で手助けできる分野があると分かったのもとても良い刺激になりました.次回も引き続き文字列認識の論文をご紹介します.

 

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

 

ohashi39.work