前々回、前回 に引き続き、今年の言語処理学会年次大会のなかで、読んだ論文を紹介します。
最終日3/19分の論文 (day3)です。 なんとか完走です。
ちなみに今年受賞した論文などの情報は下記の通りです。
- 年次大会優秀賞・若手奨励賞一覧 https://www.anlp.jp/award/nenji.html#y2020
- 言語資源賞 https://www.gsk.or.jp/event/nlp2020-lra/
今回含め、紹介した論文とほぼ一致していないですが、200以上 (300以上?) 論文があるので仕方がない。
* A Survey of Advances and Challenges in Unsupervised Neural Machine Translation
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A5-3.pdf
- unsupervised neural machine translation (UNMT)
- 単一言語のコーパスだけを必要とする教師なしニューラル機械翻訳についてのサーベイ
- bilingual 単語分散表現
- denoising auto encoder (Extracting and composing robust features with denoising autoencoders) *1
- back translation (Understanding Back-Translation at Scale, EMNLP2018 )
* ニューラルセミマルコフCRFによる論文アブストラクトの構造解析
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-1.pdf
- アブストラクト中の各文に修辞役割ラベルを与える タスク
- Background(論文の背景),Objective(論文の目的),Methods(実験手法),Results(実験結果),Conclusions(結論)
- 文ごとラベリングするのではなく、アブストラクト全体を1文以上の文のまとまりととらえ、スパンにラベルを付与する
- データ GitHub - Franck-Dernoncourt/pubmed-rct: PubMed 200k RCT dataset: a large dataset for sequential sentence classification.
* 発話の位置情報を考慮した対話行為認識
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-2.pdf
- 対話行為認識(Dialogue Act Recognition; DAR) タスク
- 既存の Bi-LSTM CRF モデルにattentionによる位置情報を追加
- データは SwDA と 日本語の問い合わせ会話音声の文字起こし TCI DialogueActコーパス
* 言語モデルによる物語中のイベントの顕現性推定
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-4.pdf
- 物語におけるイベントの顕現性の計算方法
- 顕現性の高いイベントの要件を「物語テキスト上で削除されると物語全体としての首尾一貫性が大きく損なわれるイベント」と定める
- 言語モデル (GPT2) の文の生成尤度の比をスコアとする
- データ ProppLearner: Deeply annotating a corpus of Russian folktales to enable the machine learning of a Russian formalist theory
* 小説から演劇台本への書き換え過程のアノテーション
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F5-1.pdf
* 連続する事態の一貫性に基づく雑談対話応答のリランキングにおける事例分析
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-1.pdf
- ニューラル雑談対話モデルのdull response 問題をリランキングで解決する
- リランキング方法
* chiVe 2.0:SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現に向けて
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-16.pdf
- 364万語の語彙を持つ単語ベクトル chiVe は語彙数の多さからサイズが4GBと大きいため、サイズ軽減を目指す
- Sudachiの分割単位は3種類あるため、短い分割単位のベクトルから長い分割単位のベクトルを合成する
- 文書分類の精度は大きく変化しないが、平均だけでは長い分割単位のベクトルの特徴は再現できていない
- 関連 Mimicking Word Embeddings using Subword RNNs, EMNLP2017
* 専門用語抽出のための並列名詞句の教師なし範囲同定
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-19.pdf
- 専門語が並列句で表現されて、省略されることがある e.g.
‘Amorfrutins A and B’ の B
- 並列構造解析タスク
- 動的計画法によるマッチングを用いる手法で並列句の範囲同定を行う
- 候補を抽出し、単語同士の類似度を算出、Viterbi アルゴリズムで類似度の最大和を求める
- データは 天然物化学に関する研究の論文 Journal of Natural Products
- CoreNLP がベースライン、類似度算出には SciBERT: A Pretrained Language Model for Scientific Text, EMNLP2019 と ELMo (Deep Contextualized Word Representations,NAACL2018))
* テキストから推定される筆者の性格特性情報の活用の試みと考察
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-32.pdf
- テキストから筆者の性格特性を推定するシステム
- Big Five Model と 欲求分析、価値観分析に基づいている
- 寿命・生活環境との関係性
* 雑談要約技術に向けた取り組み
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D6-4.pdf
- 雑談の生成型要約
- Towards an open-domain conversational system fully based on natural language processing, COLING2014 の雑談データセットから雑談要約データセットを構築 - 話者に注目した要約とやりとりに着目した要約
- ベースラインモデルは seq2seqとBERT
- BERTはROUGEスコアは高いものの、 流暢性・妥当性において改善の余地がある
* 権利義務認識のための契約書コーパスの構築
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F6-4.pdf
- 株式会社LegalForce
- 契約書の権利や義務の認識を目的としたコーパスを構築
- 作成には 法務領域の知識が必要
- タグは 当事者・権利 (〜することができる)・義務 (〜なければならない)・要件 (〜の場合)・例外 (〜場合を除き)
- 権利と義務は当事者と紐づける、要件と例外は権利・義務と紐づける
おわりに
3つの記事にわたる壮大なシリーズとなりました。需要があるのかはわかりませんが。
個人的には、いろんな領域の論文が読めたので楽しかったです。 研究室・研究所の研究成果はもちろん、あまりオープンにされるイメージのない企業の研究成果も知ることができるのがいいですね。
今まで
*1:参考 www.beam2d.net