言語処理学会 (NLP2020) 読んだ論文メモ1

本日、言語処理学会のサイトにて、今年の年次大会（#NLP2020）の発表論文集を一般公開しました。https://t.co/36l2juMAMO
— NLP2020 (@NLP_2020) 2020年4月8日

今年の言語処理学会年次大会の予稿集が公開されていたので、読んでいました。

読んだ論文について紹介します。

日本語論文なので、とくに要約したりはしてません。基本的に自分用メモです。論文リンク・関連資料リンクは合っているはずです。(間違ってたら教えてください) また、個人的な感想を書いたり書かなかったりしています。

言い訳っぽくなってしまいますが、言語処理学会のproceedings paperは4ページ以内なのでボリュームも多くないし、どの論文も読みやすいです。気になった方はリンク先のpdfを読んでみてください。

長くなりそうなので一旦3/17分だけ。なるべく予稿集ページの上から順番に並べるようにしています。

＊旅行情報サイトのレビューを用いた抽象的な要求に対する根拠付き推薦文の生成

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-8.pdf

ホテルの推薦文から、クラウドソーシングで根拠文を抽出して推薦文言い換えデータセット作成
- 「絶景」、「子供連れでも安心」 など抽象的な要求に対する根拠文を抽出
- ユーザーに対する根拠つき推薦文に言い換え
BERTモデルで根拠文予測・推薦文生成タスクを解く
リクルートの研究所 Megagon Labsの論文なので、データはじゃんらんnet

＊書き手ごとの要約スタイルの分析と学習

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-18.pdf

要約の長さ、ソースの位置、抽象度というスタイルについて分析
データ: Abstractive summarization of Reddit posts with multi-level memory networks, NAACL2019

＊ニュース記事からの企業キーワード抽出

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-13.pdf

企業活動に関連するキーワードの抽出
- サービス名、製品名、ウェブショップ名など
固有表現抽出タスクとして解く

buildersbox.corp-sansan.com

発表資料がリンク先からみられます

＊文書分類におけるテキストノイズおよびラベルノイズの影響分析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-20.pdf

文書分類でノイズを加えて精度の減少を調査 (モデルはSVMとBERT)
- SVMは Baselines and Bigrams: Simple, Good Sentiment and Topic Classification, ACL2012
SVMについて、ラベルノイズ (ラベルが間違っている) のほうがテキストノイズ(文字を差し替える) よりもマイナスの影響?
BERTはテキストノイズで精度さがる。未知語の比率が高い場合、過学習が発生する
データ GitHub - dennybritz/sentiment-analysis: Japanese Sentiment Analysis
- 関連論文 An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese, ACL2019

＊レシピフローグラフへのVisual Groundingアノテーション

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A1-2.pdf

手順書と動画・画像のグランディング (Contextual visual grounding)をレシピドメインに適用
Food, Tool, Actionとそれに対応するBounding Box
Bounding Boxの関係予測はBertで正解率8割

＊公式ウェブサイトをベースにしたQAチャットボットの自動構築

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C1-4.pdf

文書構造を木構造にして、フローチャートにする
BM25ベースのTSUBAKI、BERTによる検索システム
関連論文 TSUBAKI: An Open Search Engine Infrastructure for Developing Information Access Methodology

＊ロボットへの教示手段としての言語処理の課題

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A2-1.pdf

ロボットと自然言語処理のつながりについて
どのように動作するか設定する教示をロボットSIerが構築している
- 位置情報などは人手による入力
- この指示を言語処理で解決するには？
産業用ロボットの動作設定が結構泥臭い作業なことを初めて知った。曖昧性のある自然言語をどうgroundingするかは結構興味深い。

＊忠実なData-to-Text生成のための自信度付きデコーダー

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-1.pdf

較正（calibration）による自信度を利用したData-to-Text生成モデル
ISSUE: 注意度は幻視トークンと内容語の区別ができるが，機能語やテンプレート要素との区別がまだできない
- 基準確率と比較し自信度を定義、軟正 (Calibration, Entropy Rates, and Memory in Language Models )を使って生成時により忠実な文を生成するようにする
詳細は Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation
- openreview
- arXiv

Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation
pdf: https://t.co/gQQZ6HyfMK
abs: https://t.co/krypmrP6eM pic.twitter.com/GLtEui9B9u
— roadrunner01 (@ak92501) 2019年10月22日

＊コピー機構と長さ正規化を用いたData-to-text生成

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-4.pdf

Data-to-textにおけるseq2seqの未知語問題と短文生成問題をコピー機構と長さ正規化で解消する
- コピー機構: point generator Get To The Point: Summarization with Pointer-Generator Networks, ACL2017
- 長さ正規化: Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation ※グーグル翻訳についての論文

＊ JParaCrawl: 大規模Webベース日英対訳コーパス

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D2-5.pdf

日本語・英語翻訳の大規模コーパス
データ http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
ParaCrawl プロジェクトと類似した手法でコーパスを構築
- 研究目的であれば無料で利用可能

スライド https://www.otofu.org/slides/morishita20nlp.pdf

発表スライドをアップロードしておきました。https://t.co/lFwWDdHqQi
— Makoto Morishita (@MorinoseiMorizo) 2020年3月19日

＊単語分散表現の結合学習による単語の意味の通時的変化の分析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-3.pdf

時代とともに変化する単語の意味を、日本語について分析
先行研究 Statistically Significant Detection of Linguistic Change
行列分解の考え方で年代ごと同時学習
- 戦前・戦後の違いを分析
データ https://pj.ninjal.ac.jp/corpus_center/cmj/woman-mag/

＊日本語語順分析に言語モデルを用いることの妥当性について

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-5.pdf

Langsmith株式会社
Transformerベースの言語モデルの生成確率を利用した語順に関する検証、頻度や数理モデルを用いた既存の検証方法と比較
言語モデルベースの場合、評価用データが準備できればよいため、述語項解析器での解析が難しいケースについても検証できる
- e.g. 格助詞を伴わない格が存在する文における語順の自然さについて。とりたてがない文からとりたてがある文に変換することで検証用データが作成可能
- 参考: とりたて助詞日本語文法副助詞：解説

参考

＊ Data-to-Text Generation

wikipediaのinfo boxのような構造化データから文を生成する

エイエイレトリック

なぐりがき