本日、言語処理学会のサイトにて、今年の年次大会(#NLP2020)の発表論文集を一般公開しました。https://t.co/36l2juMAMO
— NLP2020 (@NLP_2020) 2020年4月8日
今年の言語処理学会年次大会の予稿集が公開されていたので、読んでいました。
読んだ論文について紹介します。
日本語論文なので、とくに要約したりはしてません。基本的に自分用メモです。論文リンク・関連資料リンクは合っているはずです。(間違ってたら教えてください) また、個人的な感想を書いたり書かなかったりしています。
言い訳っぽくなってしまいますが、言語処理学会のproceedings paperは4ページ以内なのでボリュームも多くないし、どの論文も読みやすいです。 気になった方はリンク先のpdfを読んでみてください。
長くなりそうなので一旦3/17分だけ。 なるべく予稿集ページの上から順番に並べるようにしています。
* 旅行情報サイトのレビューを用いた抽象的な要求に対する根拠付き推薦文の生成
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-8.pdf
- ホテルの推薦文から、クラウドソーシングで根拠文を抽出して推薦文言い換えデータセット作成
- 「絶景」、「子供連れでも安心」 など抽象的な要求に対する根拠文を抽出
- ユーザーに対する根拠つき推薦文に言い換え
- BERTモデルで根拠文予測・推薦文生成タスクを解く
- リクルートの研究所 Megagon Labsの論文なので、データはじゃんらんnet
* 書き手ごとの要約スタイルの分析と学習
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-18.pdf
- 要約の長さ、ソースの位置、抽象度というスタイルについて分析
- データ: Abstractive summarization of Reddit posts with multi-level memory networks, NAACL2019
* ニュース記事からの企業キーワード抽出
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-13.pdf
- 企業活動に関連するキーワードの抽出
- サービス名、製品名、ウェブショップ名など
- 固有表現抽出タスクとして解く
発表資料がリンク先からみられます
* 文書分類におけるテキストノイズおよびラベルノイズの影響分析
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-20.pdf
- 文書分類でノイズを加えて精度の減少を調査 (モデルはSVMとBERT)
- SVMについて、ラベルノイズ (ラベルが間違っている) のほうがテキストノイズ(文字を差し替える) よりもマイナスの影響?
- BERTはテキストノイズで精度さがる。未知語の比率が高い場合、過学習が発生する
- データ GitHub - dennybritz/sentiment-analysis: Japanese Sentiment Analysis
* レシピフローグラフへのVisual Groundingアノテーション
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A1-2.pdf
- 手順書と動画・画像のグランディング (Contextual visual grounding)をレシピドメインに適用
- Food, Tool, Actionと それに対応するBounding Box
- Bounding Boxの関係予測はBertで正解率8割
* 公式ウェブサイトをベースにしたQAチャットボットの自動構築
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C1-4.pdf
- 文書構造を木構造にして、フローチャートにする
- BM25ベースのTSUBAKI、BERTによる検索システム
- 関連論文 TSUBAKI: An Open Search Engine Infrastructure for Developing Information Access Methodology
* ロボットへの教示手段としての言語処理の課題
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A2-1.pdf
- ロボットと自然言語処理のつながりについて
- どのように動作するか設定する教示をロボットSIerが構築している
- 位置情報などは人手による入力
- この指示を言語処理で解決するには?
- 産業用ロボットの動作設定が結構泥臭い作業なことを初めて知った。曖昧性のある自然言語をどうgroundingするかは結構興味深い。
* 忠実なData-to-Text生成のための自信度付きデコーダー
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-1.pdf
- 較正(calibration) による自信度を利用したData-to-Text生成モデル
- ISSUE: 注意度は幻視トークンと内容語の区別ができるが,機能語やテンプレート要素との区別がまだできない
- 基準確率と比較し自信度を定義、 軟正 (Calibration, Entropy Rates, and Memory in Language Models )を使って生成時により忠実な文を生成するようにする
- 詳細は Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation
Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation
— roadrunner01 (@ak92501) 2019年10月22日
pdf: https://t.co/gQQZ6HyfMK
abs: https://t.co/krypmrP6eM pic.twitter.com/GLtEui9B9u
* コピー機構と長さ正規化を用いたData-to-text生成
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-4.pdf
- Data-to-textにおけるseq2seqの未知語問題と短文生成問題をコピー機構と長さ正規化で解消する
* JParaCrawl: 大規模Webベース日英対訳コーパス
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D2-5.pdf
- 日本語・英語翻訳の大規模コーパス
- データ http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
- ParaCrawl プロジェクト と類似した手法でコーパスを構築
- 研究目的であれば無料で利用可能
スライド https://www.otofu.org/slides/morishita20nlp.pdf
発表スライドをアップロードしておきました。https://t.co/lFwWDdHqQi
— Makoto Morishita (@MorinoseiMorizo) 2020年3月19日
* 単語分散表現の結合学習による単語の意味の通時的変化の分析
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-3.pdf
- 時代とともに変化する単語の意味を、日本語について分析
- 先行研究 Statistically Significant Detection of Linguistic Change
- 行列分解の考え方で年代ごと同時学習
- 戦前・戦後の違いを分析
- データ https://pj.ninjal.ac.jp/corpus_center/cmj/woman-mag/
* 日本語語順分析に言語モデルを用いることの妥当性について
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-5.pdf
- Langsmith株式会社
- Transformerベースの言語モデルの生成確率を利用した語順に関する検証、頻度や数理モデルを用いた既存の検証方法と比較
- 言語モデルベースの場合、評価用データが準備できればよいため、述語項解析器での解析が難しいケースについても検証できる
- e.g. 格助詞を伴わない格が存在する文における語順の自然さについて。とりたてがない文からとりたてがある文に変換することで検証用データが作成可能
- 参考: とりたて助詞 日本語 文法 副助詞:解説
参考
* Data-to-Text Generation
wikipediaのinfo boxのような構造化データから文を生成する