エイエイレトリック

なぐりがき

言語処理学会 (NLP2020) 読んだ論文メモ1

今年の言語処理学会年次大会の予稿集が公開されていたので、読んでいました。

読んだ論文について紹介します。

日本語論文なので、とくに要約したりはしてません。基本的に自分用メモです。論文リンク・関連資料リンクは合っているはずです。(間違ってたら教えてください) また、個人的な感想を書いたり書かなかったりしています。

言い訳っぽくなってしまいますが、言語処理学会のproceedings paperは4ページ以内なのでボリュームも多くないし、どの論文も読みやすいです。 気になった方はリンク先のpdfを読んでみてください。

長くなりそうなので一旦3/17分だけ。 なるべく予稿集ページの上から順番に並べるようにしています。

* 旅行情報サイトのレビューを用いた抽象的な要求に対する根拠付き推薦文の生成

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-8.pdf

  • ホテルの推薦文から、クラウドソーシングで根拠文を抽出して推薦文言い換えデータセット作成
    • 「絶景」、「子供連れでも安心」 など抽象的な要求に対する根拠文を抽出
    • ユーザーに対する根拠つき推薦文に言い換え
  • BERTモデルで根拠文予測・推薦文生成タスクを解く
  • リクルートの研究所 Megagon Labsの論文なので、データはじゃんらんnet

* 書き手ごとの要約スタイルの分析と学習

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-18.pdf

* ニュース記事からの企業キーワード抽出

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-13.pdf

  • 企業活動に関連するキーワードの抽出
    • サービス名、製品名、ウェブショップ名など
  • 固有表現抽出タスクとして解く

buildersbox.corp-sansan.com

発表資料がリンク先からみられます

* 文書分類におけるテキストノイズおよびラベルノイズの影響分析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-20.pdf

* レシピフローグラフへのVisual Groundingアノテーション

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A1-2.pdf

  • 手順書と動画・画像のグランディング (Contextual visual grounding)をレシピドメインに適用
  • Food, Tool, Actionと それに対応するBounding Box
  • Bounding Boxの関係予測はBertで正解率8割

* 公式ウェブサイトをベースにしたQAチャットボットの自動構築

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C1-4.pdf

* ロボットへの教示手段としての言語処理の課題

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A2-1.pdf

  • ロボットと自然言語処理のつながりについて
  • どのように動作するか設定する教示をロボットSIerが構築している
    • 位置情報などは人手による入力
    • この指示を言語処理で解決するには?
  • 産業用ロボットの動作設定が結構泥臭い作業なことを初めて知った。曖昧性のある自然言語をどうgroundingするかは結構興味深い。

* 忠実なData-to-Text生成のための自信度付きデコーダ

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-1.pdf

コピー機構と長さ正規化を用いたData-to-text生成

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C2-4.pdf

* JParaCrawl: 大規模Webベース日英対訳コーパス

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D2-5.pdf

スライド https://www.otofu.org/slides/morishita20nlp.pdf

* 単語分散表現の結合学習による単語の意味の通時的変化の分析

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-3.pdf

* 日本語語順分析に言語モデルを用いることの妥当性について

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/E2-5.pdf

  • Langsmith株式会社
  • Transformerベースの言語モデルの生成確率を利用した語順に関する検証、頻度や数理モデルを用いた既存の検証方法と比較
  • 言語モデルベースの場合、評価用データが準備できればよいため、述語項解析器での解析が難しいケースについても検証できる
    • e.g. 格助詞を伴わない格が存在する文における語順の自然さについて。とりたてがない文からとりたてがある文に変換することで検証用データが作成可能
    • 参考: とりたて助詞 日本語 文法 副助詞:解説

参考

* Data-to-Text Generation

wikipediaのinfo boxのような構造化データから文を生成する