前回に引き続き、今年の言語処理学会年次大会のなかで、読んだ論文を紹介します。
今回は3/18分の論文 (day2)です。 ちょっとだけ紹介本数減ってますが、お察しください。
紹介している論文の分野の偏りが激しいので、余裕のある方は予稿集 から読んでみてください。(ポスターセッションは分けられていないですが) プログラムはテーマ、コンテンツごとに分けられています。
* 因果判定データセットの構築と原因結果表現抽出への拡張
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B3-1.pdf
- 因果関係知識の有無の判定
- 日本語データは 新聞記事からの因果関係を含む文の抽出手法, 電子情報通信学会2011 の日経新聞データ
雪の影響で、北海道や東北、日本海側を中心に空の便が乱れ、十四日午後一時までに計百七十便が欠航、約二万人に影響が出た
- 「雪」が原因、「空の便が乱れ」が結果
- 英語データはSemEval2010 task8 を再構築
- 2単語の関係分類タスクのデータを原因・結果・てがかり表現にタグを付け替える
- モデルはattentionつきLSTM、Random Forest、Logistic Regression、SVM
- Logistic Regressionでも精度が良い日経新聞タスクは比較的容易?
* 企業リスク分析のための重要単語抽出と 因果関係ネットワークの構築
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B3-2.pdf
* 単語分散表現に基づく単一言語内フレーズアライメント手法
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C3-3.pdf
- 同一言語の文対に含まれる意味的に対応するフレーズについて,それらのアライメントを取ることを目的とする タスク
- 対訳フレーズアライメントの手法を拡張した同一言語アライメント
- 単語分散表現を用いた単語アライメントをフレーズ対に拡張
- 実装 https://github.com/m-yoshinaka/sapphire
- データ Aligning the RTE 2006 Corpus
* キャッチコピーにおける対句構造の解析
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D3-4.pdf
- キャッチコピー中の対句構造のアノテーション
- 対句構造の抽出タスク
- スパン分類 SpERT ([1909.07755] Span-based Joint Entity and Relation Extraction with Transformer Pre-training) + 対句識別
- 対句識別には可換性が効く
* 産業翻訳における機械翻訳技術の有用性を評価する手法の構築
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/G3-2.pdf
- 機械翻訳を産業翻訳に導入するための評価について
- 産業翻訳においては、翻訳の品質である「正確性・流暢性」だけでなく、顧客の指定するスタイルや、文書の使用目的に即した表現が適切に なされているか、文書のドメインに一致した訳語が 選択されているか なども重要
- モデルケースとして、日英翻訳の汎用機械翻訳システムと医療ドメインの機械翻訳システムについて以下の観点で比較
- エラー分析
- 固有表現の再現率
* 自動生成されたキャッチコピーの実店舗における効果検証
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P4-8.pdf
- 長野県の道の駅で自動生成した広告POPを掲示する実験
- 食堂のメニュー・お土産そば・リンゴジュース
* 詳細化した同義関係をもつ同義語辞書の作成
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P4-14.pdf
- 形態素解析器 Sudachiの辞書 SudachiDict に同義関係を付与
- 同義関係は9種類、4つの階層構造
ワークス徳島NLPでは「Sudachi同義語辞書」を公開しています!
— Sorami Hisamoto (@sorami) 2020年3月17日
4.6万語・1.7万群収録。Apache2.0、無償で商用利用可。継続的に更新予定📖 https://t.co/RS1Mt7WPWe
言語処理学会 #NLP2020 3/18 (水) 13:05- ポスター発表です; P4-14「詳細化した同義関係をもつ同義語辞書の作成」#NLP2020sponsor pic.twitter.com/cpBBZIXqP9
* 単一評価サンプルのためのトランズダクティブ学習
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P4-23.pdf
- 評価データのサンプル数が非常に限られた状況でトランズダクティブ学習を行う場合,依然として性能の向上を確認できるか をNER、sentiment analysis、textual entailmentタスクで調査
- トランズダクティブ学習 (Transductive learning)
* 小規模リソースにおける生成型要約のためのスタイル転移
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/A4-1.pdf
- データ JNCとJAMUL:朝日新聞社メディアラボ 人工知能研究の取り組み
- 見出し生成から要約生成のスタイル転移
- 記事からの見出し生成と要約生成を同時に学習することを,生成スタイルの転移と見なし,転移学習により高いパフォーマンスの要約生成器を獲得する
- モデルは transformer と Text Summarization with Pretrained Encoders, EMNLP2019
* 引用の対象である概念の表現の考察
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/C4-5.pdf
- 引用の対象である概念 (引用概念) とそれに対応する言語表現 (引用対象概念表現)について考察
Small’s paper (1) presents a completely erroneous interpretation of citation practice.
- "Small’s paper" を引用することで "presents~" に表現される引用対象概念を導入している
- 語句レベルの 引用対象概念表現 について、Construction of the structural definition-based terminology ontology system and semantic search evaluation の枠組みを利用
- 大半は用語だが、それ以外も引用対象概念表現になりうる
- 節レベルの 引用対象概念表現 について AN INTRODUCTION TO FUNCTIONAL GRAMMAR の枠組みを利用
- 具体的な事例、一般的な事柄、複数の研究をまとめる形での引用