【#9 論文解説】日本語の誤り傾向を考慮した疑似誤り生成

f:id:bonjiri_3939:20200921161650p:plain
こんにちは，ohashiです．

今回は日本語における疑似誤り生成をご紹介します．

文法の誤りを訂正するAIについて，興味がある方はぜひ！

目的
- こんな人向け
- こんな人向けではない
論文
- 日本語誤り訂正における誤り傾向を考慮した疑似誤り生成 [言語処理学会, 2020]
できるようになったこと
まだできないこと
- 誤文の分かち書き(※致命的)
所感
ohashi

目的

こんな人向け

社内で扱ったことのない分野の技術調査を始めたい．
ゼミでの論文紹介の前に論文がどんな技術か把握したい．
githubのコードを触る前に論文の要点を把握したい．
そもそも論文を読むことが苦手．

こんな人向けではない

論文内の数式を完璧に追って理解したい．(要は何がしたいのかの説明を優先します．)
著者または他者実装の追試結果，実装ノウハウを知りたい．(githubをご参照下さい．)

論文

　今回は自然言語処理分野における『文法誤り訂正, Grammatical Error Correction(GEC)』と呼ばれるタスクに関する研究をご紹介します．要するに，間違った文章を入力として，それを正しい文章に翻訳するという機械翻訳のタスクの内の一つです．今回は，英語ばかりでやられていたこれらの研究を日本語で取り組まれた研究に焦点を当てて，『できること』と『できないこと』を整理していきます．

日本語誤り訂正における誤り傾向を考慮した疑似誤り生成 [言語処理学会, 2020]

Authors: 小川耀一朗，山本和英

Publication: 言語処理学会第26回年次大会

17_日本語文法誤り訂正における誤り傾向を考慮した疑似誤り生成 from Ryohashi

できるようになったこと

Transformerを活用した日本語の文法誤り訂正

　従来では，ニューラルネットワークを用いた日本語の文法誤り訂正手法が提案されていませんでした．それに対して，提案手法では英文法誤り訂正と同様の，Transformerかつ従来法の最新手法であるコピー機構を組み込んで文法誤り訂正に取り組んでいます．なぜ日本語で文法誤り訂正が研究されてこなかったかは『まだできないこと』で述べます．提案手法では，Transformerを用いて日本語の文法誤り訂正を研究した先行事例として参考となると考えます．

コピー機構による入力文の転写

　文法誤り訂正というタスクは，誤りが含まれた入力文を，誤りのない出力文に翻訳するタスクに分類される文章生成のタスクです．入力における誤りは，入力文全体に対して10%にも満たない，つまり，ほとんどが訂正しなくても良いトークンなため，ニューラルネットワークは訂正しなくても良い箇所は訂正せずに入力文をそのままコピーして出力する必要があります．これが，文法誤り訂正のタスクの課題になります．これを2019年に発表したZhangらのコピー機構を取り入れることにより，エンコーダで最終的に得られる分散表現と，デコーダで得られる最終的な分散表現でSelf-Attentionを計算しています．これは，入力文から得られた分散表現とデコーダで得られた分散表現で，なるべく類似した特徴を重みづけてトークンを生成しようとしている狙いが見られます．これにより，変更しなくても良いトークンはSelf-Attentionでなるべく変更しないように工夫をしてからトークンを生成するという機構が見られます．

逆翻訳モデルによるデータ拡張

　提案手法で採用されてはいませんが，検討された手法の一つとして，逆翻訳モデルによるデータ拡張が挙げられます．これは，誤りのない綺麗な文章を入力とし，わざと汚い文章を出力させ，次はその汚い文章を入力として，文法誤り訂正の学習データとして利用する，という手法です．これにより，学習データをかなり水増しすることに成功しています．逆翻訳の原著論文については，今後の記事で取り上げます．文法誤り訂正のタスクではこの後も事前学習のタスクとしてこの逆翻訳モデルによる学習パラメータの調整が提案されている論文などが登場するため，覚えておいた方がよさそうです．

まだできないこと

誤文の分かち書き(※致命的)

　提案手法の評価指標は，英文の文法誤り訂正のスコアと比較すると，26.0と非常に低い値です．これは，ニューラルネットワークに入力する以前に，日本語の誤文の分かち書きができていないからと考えます．英文法における誤文は，誤っていれど単語はスペースで区切られていることがほとんどです．一方で，日本語は単語をスペースで区切るルールがありません．従って，誤った単語が入力にある際，正しい単語で学習されたJanomeやMeCabによる分かち書きが上手く機能しないことは容易に想像されます．これが日本語における文法訂正が発展しない理由の根本原因だと考えます．この問題が解決されない限り，文法誤り訂正のタスクは発展することはないと考えます．

所感

　Transformer, BERTときて，次に気になったのは自然言語処理が実用化される研究領域でした．AIによる文章校正システムというのは需要がありますし，現場で働いている方の工数の大幅な削減につながります．ただ，実用化に向けては，誤文の分かち書きという大きな課題が存在し，これを解決することがAIによる文章校正システムの大きな一歩につながると論文を読んで感じました．次回は日本語から離れて，最新の英文法誤りシステムについてまとめます．

ohashi

f:id:bonjiri_3939:20200818220918p:plain — おはし

　2019年入社，深層学習を扱う部署に配属．大学院では動画から脈波を抽出する研究に従事．動画像の理解，人間の魅力の解析，人間の自律神経や生体信号に興味関心．深層学習だと自然言語処理の実用化に興味関心．

　同じ研究分野の人間が利害問わず協力して研究動向を追って，初学者の方に自分が勉強した教材を利用してもらって，研究のコミュニティが広がると嬉しいですよね．AIはとっつきにくい分野ではないことを知ってほしいです．むしろ社会にも実装され始めている現在は，みんなでAIが今できることとできないことを把握して，知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います．そういった時代に向けて，情報共有の一助になれば幸いです．

ご連絡はお問い合わせフォームからお願い致します．

ohashi39.work