【#10 論文解説】Diverse Backtranslation for Grammar Correction
こんにちは,ohashiです.
今回は逆翻訳を使った文章のデータ拡張手法をご紹介します.
これから流行りそうな逆翻訳の概念に興味がある方はぜひ!
目的
こんな人向け
- 社内で扱ったことのない分野の技術調査を始めたい.
- ゼミでの論文紹介の前に論文がどんな技術か把握したい.
- githubのコードを触る前に論文の要点を把握したい.
- そもそも論文を読むことが苦手.
こんな人向けではない
- 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
- 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)
論文
今回は自然言語処理分野の文法誤り訂正分野で話題になった逆翻訳について紹介します.画像や音声では入力にノイズを加えて学習データをかさましするデータ拡張は当たり前のように行われていますが,言語では明確なデータ拡張という処理がありません.文章は連続しておらず離散的で,例えばこの単語から0.1加算した単語,というものが定義づけられていません.これを,ニューラルネットワークを使うことで言語でも上手くデータ拡張が行えた,と報告したのがXieらが提案した逆翻訳モデルです.
Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction [NAACL-HLT, 2018]
Authors: Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Ng, Dan Jurafsky
Publication: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)
できるようになったこと
入力文章にノイズを加えるニューラルネットワークでデータをかさまし
文法誤り訂正の学習データは誤り文(入力)と訂正文(正解)のペアから成ります.従来の文法誤り訂正の手法では,これらのデータを一つのモデルで学習させることで入力文を訂正させるようなニューラルネットワークを獲得することを目的としてきました.Xieらはこのニューラルネットワークを学習する前に,学習データの入力である誤り文と,正解である訂正文の関係をひっくり返して,正解である訂正文から,入力のような誤り文を生成するようなnoising networkをまず学習させています.その後,学習させたnoising networkが生成した誤り文を新たな入力とみなして,文法誤り訂正モデルを学習させることで,誤り訂正の精度が向上したと報告しています.
ドメイン適応はそこまで気にしなくて良いことを確認
深層学習の分野では,ドメイン適応と呼ばれる分野があります.転移学習の一種に分類され,例えば,ラベルの付いている教師ありデータを使って,ラベルのない教師無しデータのラベルを予測するタスク,などが挙げられます.今回学習済みのnoising networkで生成した疑似誤り文章は,テストデータから生成された文章であるため,正確には正解ラベルが無い教師無しデータです.つまり,厳密には文法誤り訂正の学習をする前に,ドメイン適応問題を解いて,生成した疑似誤り文に教師ラベルを付与しなくてはなりません.しかし,今回はそこまで厳密にやらずに,テストデータを仮の教師ラベルにすることで十分に誤り訂正の精度が出たため,ドメイン適応についてはそこまで気にしなくて良いと述べています.
まだできないこと
訂正しなくて良い箇所までの不要な訂正の抑制
論文中では述べられていませんが,文法誤り訂正では入力文章の90%以上は入力の文章をそのまま出力することを理想としています.ニューラルネットワークに与えられたほとんどの文章の内,誤っている1箇所のみの誤りを訂正できれば良いのです.しかし,ニューラルネットワークにはその知識が明示的に与えられていないため,訂正しなくて良い箇所まで訂正してしまう状況が起こりえます.例えば,訂正まではいかなくとも同じ表現で言い換えてしまったりすることが挙げられます.これは直接,文法誤り訂正の評価指標に影響するため,訂正しなくて良い箇所はなるべく訂正しないような工夫が必要であると考えられます.
所感
今回の論文のIntroductionでは,文法誤り訂正は『badな文章』を『goodな文章』に翻訳する機械翻訳タスクの一種だと解釈できる,と述べられていましたが,実際に中身を追っていくと,従来の機械翻訳では考えられてこなかったようないくつもの課題が提示されているように感じました.その中でも,Xieらが提案した逆翻訳モデルは従来の機械翻訳タスクにも適用できる非常に汎用的な技術であると感じました.今は逆翻訳モデルとは異なるMulti Agent Dual Learningと呼ばれるCycle GANに似た手法が流行っているようですが,新たな深層学習の流れに触れられたような気がしました.何となくですが深層学習も段々と教師データを必要としなくなっている方向に動いている気がします.その内半教師あり学習や教師無し学習についても調査するかもしれません.次回も文法誤り訂正についての論文をご紹介します.
ohashi
2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.
同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.
ご連絡はお問い合わせフォームからお願い致します.