【#11 論文解説】The CoNLL-2014 Shared Task on GEC
こんにちは,ohashiです.
今回は文法誤り訂正のデータセットをご紹介します.
ベンチマークとなっているデータセットの内容に興味がある方はぜひ!
目的
こんな人向け
- 社内で扱ったことのない分野の技術調査を始めたい.
- ゼミでの論文紹介の前に論文がどんな技術か把握したい.
- githubのコードを触る前に論文の要点を把握したい.
- そもそも論文を読むことが苦手.
こんな人向けではない
- 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
- 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)
論文
今回は自然言語処理分野の文法誤り訂正でベンチマークとして使用されているCoNLL-2014(コヌル,と読むそうです.)データセットを紹介します.学会で発表されたCoNLL-2014データセットは28種に渡る文法誤りの文章が含まれています.学習データは約100万単語,テストデータは約3万単語という小規模のデータセットです.このデータセットが出された目的は,今後重要になるであろう文法誤り訂正の課題を,データセットを提示することで様々な研究者に共有することだと考えられます.要は課題の共有ですね.これを基に,今の文法誤り訂正のタスクでもCoNLL-2014データセットが論文内で評価対象にされていることを見かけます.具体的な誤り内容や,当時参加したチームの誤り訂正精度については,上のスライドを参照ください.人手で評価してもかなり低い精度なことから,タスクの難易度の高さが見て取れます.
The CoNLL-2014 Shared Task on Grammatical Error Correction [ACL, 2014]
Authors: Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian Hadiwinoto, Raymond Hendy Susanto, Christopher Bryant
Publication: Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task, pages 1–14,Baltimore, Maryland, 26-27 July 2014.c©2014 Association for Computational Linguistics
所感
今回は学会で共有されたCoNLL-2014データセットの紹介でした.また,データセットでは,『できるようになったこと』と『まだできないこと』という観点から外れるため,記載を省略しました.2019年から論文を読み始めたため,急いで昔の論文をキャッチアップしている状態です.大学だとこういう知識は指導教員から聞けると思うのでとて効率的で良いと思います.次回は自然言語処理から一転して,Transformerを使った物体検出があるとのことなので,そちらを紹介します.DETRです.
ohashi
2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.ヒトの自律神経や生体信号,ヒトの魅力の解析,動画像の理解に興味関心.深層学習だと自然言語処理の実用化に興味関心.
同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.
ご連絡はお問い合わせフォームからお願い致します.