【#18 論文解説】Improving NMT with Monolingual Data
こんにちは,ohashiです.
今回は逆翻訳によるデータ拡張手法をご紹介します.
自然言語処理のデータ拡張に興味がある方はぜひ!
目的
こんな人向け
- 社内で扱ったことのない分野の技術調査を始めたい.
- ゼミでの論文紹介の前に論文がどんな技術か把握したい.
- githubのコードを触る前に論文の要点を把握したい.
- そもそも論文を読むことが苦手.
こんな人向けではない
- 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
- 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)
論文
今回は,自然言語処理における逆翻訳によるデータ拡張手法をご紹介します.以前に2018年の論文をご紹介しましたが,それ以前に発表されていた論文になります.
Improving Neural Machine Translation Models with Monolingual Data [arXiv, 2016]
Authors: Rico Sennrich, Barry Haddow, Alexandra Birch
Publication: arXiv:1511.06709v4 [cs.CL]
できるようになったこと
機械翻訳タスクにおけるデータ拡張
今回の研究で最も大きな貢献は,自然言語処理分野でデータを拡張できる可能性を示した点です.スライドp.4にも記載していますが,翻訳言語から原言語を生成するように逆翻訳することで新たな対訳文を疑似生成し,データのかさましを行っています.これにより,従来は機械翻訳であれば対訳文があるデータしか学習に使えなかったのに対して,逆翻訳により対訳文が無い単文から対訳文を生成することが可能となりました.
まだできないこと
品詞等を制御した疑似データの生成
論文内では述べられていませんでしたが,疑似データはニューラルネットワークの予測結果により生成されています.つまり,ユーザ側から制御して,助詞や述語のみに特化した疑似データを生成することまではできないと考えられます.例えば,誤った文章から正しい文章に訂正するタスクを取り扱うときに,助詞誤りの文章は手持ちで用意されていて,述語誤りだけの疑似データが欲しい,といったような状況では,この逆翻訳の機構は上手く機能しないと考えられます.
所感
今回は機械翻訳タスクにおいて,対訳文を持たない文章から逆翻訳により対訳文を生成する手法をご紹介しました.非常に汎用的で機械翻訳タスク以外にも適用できそうな発想だと考えられます.実務においてもデータ拡張は重要になってくるため,今後の研究も追っていきたいと思います.
ohashi
2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.
同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.
ご連絡はお問い合わせフォームからお願い致します.