エイエイレトリック

なぐりがき

言語処理学会 (NLP2020) 読んだ論文メモ3

nlp paper

前々回、前回に引き続き、今年の言語処理学会年次大会のなかで、読んだ論文を紹介します。

最終日3/19分の論文 (day3)です。なんとか完走です。

ちなみに今年受賞した論文などの情報は下記の通りです。

年次大会優秀賞・若手奨励賞一覧 https://www.anlp.jp/award/nenji.html#y2020
言語資源賞 https://www.gsk.or.jp/event/nlp2020-lra/

今回含め、紹介した論文とほぼ一致していないですが、200以上 (300以上?) 論文があるので仕方がない。

＊ A Survey of Advances and Challenges in Unsupervised Neural Machine Translation

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A5-3.pdf

unsupervised neural machine translation (UNMT)
単一言語のコーパスだけを必要とする教師なしニューラル機械翻訳についてのサーベイ
- bilingual 単語分散表現
- denoising auto encoder (Extracting and composing robust features with denoising autoencoders) *1
- back translation (Understanding Back-Translation at Scale, EMNLP2018 )

＊ニューラルセミマルコフCRFによる論文アブスト ラクトの構造解析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-1.pdf

アブストラクト中の各文に修辞役割ラベルを与える タスク
- Background(論文の背景)，Objective(論文の目的)，Methods(実験手法)，Results(実験結果)，Conclusions(結論)
文ごとラベリングするのではなく、アブストラクト全体を1文以上の文のまとまりととらえ、スパンにラベルを付与する
- スコアを Bi-LSTM、スパン予測をセミマルコフCRFでモデリング
データ GitHub - Franck-Dernoncourt/pubmed-rct: PubMed 200k RCT dataset: a large dataset for sequential sentence classification.

＊発話の位置情報を考慮した対話行為認識

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-2.pdf

対話行為認識（Dialogue Act Recognition; DAR） タスク
既存の Bi-LSTM CRF モデルにattentionによる位置情報を追加
- 既存 [1709.04250] Dialogue Act Sequence Labeling using Hierarchical encoder with CRF
データは SwDA と日本語の問い合わせ会話音声の文字起こし TCI DialogueActコーパス

＊言語モデルによる物語中のイベントの顕現性推定

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B5-4.pdf

物語におけるイベントの顕現性の計算方法
顕現性の高いイベントの要件を「物語テキスト上で削除されると物語全体としての首尾一貫性が大きく損なわれるイベント」と定める
言語モデル (GPT2) の文の生成尤度の比をスコアとする
データ　ProppLearner: Deeply annotating a corpus of Russian folktales to enable the machine learning of a Russian formalist theory

＊小説から演劇台本への書き換え過程のアノテーション

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F5-1.pdf

小説から演劇台本への自動書き換えシステム構築のための <原本,演劇台本>の対応付け アノテーション
書き換え手順を定義
- XMLタグを挿入するアノテーション

＊連続する事態の一貫性に基づく雑談対話応答のリランキングにおける事例分析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-1.pdf

ニューラル雑談対話モデルのdull response 問題をリランキングで解決する
リランキング方法
- 因果関係 Acquiring Strongly-related Events using Predicate-argument Co-occurring Statistics and Case Frames, IJCNLP2011
- coherence モデル A Cross-Domain Transferable Neural Coherence Model, ACL2019

＊ chiVe 2.0：SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現に向けて

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-16.pdf

364万語の語彙を持つ単語ベクトル chiVe は語彙数の多さからサイズが4GBと大きいため、サイズ軽減を目指す
Sudachiの分割単位は3種類あるため、短い分割単位のベクトルから長い分割単位のベクトルを合成する
- 文書分類の精度は大きく変化しないが、平均だけでは長い分割単位のベクトルの特徴は再現できていない
関連 Mimicking Word Embeddings using Subword RNNs, EMNLP2017

＊専門用語抽出のための並列名詞句の教師なし範囲同定

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-19.pdf

専門語が並列句で表現されて、省略されることがある e.g. ‘Amorfrutins A and B’ の B
- 並列構造解析タスク
動的計画法によるマッチングを用いる手法で並列句の範囲同定を行う
- 候補を抽出し、単語同士の類似度を算出、Viterbi アルゴリズムで類似度の最大和を求める
データは天然物化学に関する研究の論文 Journal of Natural Products
CoreNLP がベースライン、類似度算出には SciBERT: A Pretrained Language Model for Scientific Text, EMNLP2019 と ELMo (Deep Contextualized Word Representations,NAACL2018))

＊テキストから推定される筆者の性格特性情報の活用の試みと考察

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-32.pdf

テキストから筆者の性格特性を推定するシステム
- personality-insights-demo.ng.bluemix.net
Big Five Model と欲求分析、価値観分析に基づいている
寿命・生活環境との関係性

＊雑談要約技術に向けた取り組み

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D6-4.pdf

雑談の生成型要約
Towards an open-domain conversational system fully based on natural language processing, COLING2014 の雑談データセットから雑談要約データセットを構築　 - 話者に注目した要約とやりとりに着目した要約
ベースラインモデルは seq2seqとBERT
- BERTはROUGEスコアは高いものの、 流暢性・妥当性において改善の余地がある

＊権利義務認識のための契約書コーパスの構築

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F6-4.pdf

株式会社LegalForce
契約書の権利や義務の認識を目的としたコーパスを構築
- 作成には法務領域の知識が必要
タグは当事者・権利 (〜することができる)・義務 (〜なければならない)・要件 (〜の場合)・例外 (〜場合を除き)
- 権利と義務は当事者と紐づける、要件と例外は権利・義務と紐づける

おわりに

3つの記事にわたる壮大なシリーズとなりました。需要があるのかはわかりませんが。

個人的には、いろんな領域の論文が読めたので楽しかったです。研究室・研究所の研究成果はもちろん、あまりオープンにされるイメージのない企業の研究成果も知ることができるのがいいですね。

今まで

eieito.hatenablog.com

eieito.hatenablog.com

*1:参考 www.beam2d.net