いつの間にか月が変わってしましましたが、2024年3月に言語処理学会第30回年次大会 に参加したので、論文紹介をします。 言語資源・評価手法関連が多いです。
サイトの上から順に選び、聴講の際も時系列に沿ってメモしていたので、それに従った順番に紹介します。 カテゴリは口頭発表に基づいてつけていますが、ポスター発表は自分の想像でつけています。
簡単な紹介しかしていないので、詳細を知りたい場合はリンク先の論文を読んでください。 間違いがないよう、なるべく論文の表現を引用しています。
- P1-7 「昭和・平成書き言葉コーパス」の語彙統計情報の公開
- P1-10 日本語意味変化検出の評価セットの拡張と検出手法の評価
- P2-8 計量テキスト分析のための文埋め込みによる探索的カテゴリ化
- P4-25 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score
- E6-2 意味変化の統計的法則は1000年成り立つ
- E6-4 意味の集中度に基づいた意味変化検出
- C7-1 音声認識を用いた青空文庫振り仮名注釈付き音声コーパスの構築の試み
- C7-5 J-UniMorph: 日本語の形態論における意味分類の体系化
- P9-22 英語中心の大規模言語モデルの言語横断汎化能力
- P10-13 機密情報検知における生成AIを用いたデータ拡張
- D11-1 テキスト編集事例の編集操作への自動分解
- 余談: 神戸の思い出
P1-7 「昭和・平成書き言葉コーパス」の語彙統計情報の公開
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P1-7.pdf
言語資源・アノテーション
- 公開データ: a1da4/shc-data
- 「昭和・平成書き言葉コーパス」の n-gram 情報と共起情報を公開
- データは雑誌・書籍・新聞
- 共起情報で昭和から平成で意味が変化したかどうかの分析が可能
P1-10 日本語意味変化検出の評価セットの拡張と検出手法の評価
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P1-10.pdf
言語資源・アノテーション
- 公開データ: tmu-nlp/JapaneseLSCDataset
- 意味変化検出タスク向けの日本語の評価用単語リストを拡張
- 先行研究を含めて合計20単語 (意味変化ありと意味変化なし)
- 比較は 明治・大正、昭和・平成、平成 の3つのコーパスで行う
P2-8 計量テキスト分析のための文埋め込みによる探索的カテゴリ化
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P2-8.pdf
実社会応用
- 景気ウォッチャー調査 のテキストを使った「地域別不況の要因分析」のケーススタディ
- 文埋め込みに変換し、次元削減、独立成分のスコアを利用しカテゴリを割り当てる
- 文埋め込みに変換し、次元削減する手法は Discovering Universal Geometry in Embeddings with ICA (Yamagiwa et al., EMNLP 2023) に基づいている
- 独立成分ごとソートし、閾値で2値分類
P4-25 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P4-25.pdf
文法誤り訂正
- 自動評価尺度 GREEN の提案。計算が O(k) と高速で人手評価に近い評価を実現
- 原文、参照文、訂正文を n-gram の多重集合として扱い、原文→参照文 と 原文→訂正文を比較する
- 同じ操作・過剰な操作・操作不足
- TruePositive, FalsePositive, FalseNegative が集計でき、F値を求めることができる
E6-2 意味変化の統計的法則は1000年成り立つ
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E6-2.pdf
- 聖書をコーパスとして使い、長期間の意味変化を調査する
- ラテン語とロマンス語 (フランス語・イタリア語など) で1000年以上の期間があっても「意味変化の統計的法則」(下記) が成立する
- 高頻度語ほど意味変化の度合いが小さい
- 多義語ほど意味変化の度合いが大きい
E6-4 意味の集中度に基づいた意味変化検出
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E6-4.pdf
- 意味変化の検出に意味の集中度という指標を用いる
- 意味の変化だけでなく、広がりも判定できる
- 単語ベクトルが様々な方向を向いているほど多様な意味を持つ。常に同じ意味の場合は一点に集中する。
C7-1 音声認識を用いた青空文庫振り仮名注釈付き音声コーパスの構築の試み
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C7-1.pdf
言語資源・アノテーション
- 公開データ: ndl-lab/hurigana-speech-corpus-aozora
- 青空文庫の読み上げ音声を利用し、読みデータを構築する
- 同形異音語やレアな単語に対する問題があるため、振り仮名付きコーパスがほしい
- OpenAI の Whisper で音声認識してテキストと対応をとる
C7-5 J-UniMorph: 日本語の形態論における意味分類の体系化
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C7-5.pdf
言語資源・アノテーション
- 公開データ: cl-tohoku/J-UniMorph
- UniMorph という、「原形,語形,特徴ラベル」の3つのラベルを付与するプロジェクトがあり、その日本語版を作成する
- 形態素解析の辞書定義と異なり、言語を横断して共通のラベルなので他の言語と対応付けられる
- 基本的な動詞を使ってデータを構築
- 語形の変化には fasiha/kamiya-codec を使用
P9-22 英語中心の大規模言語モデルの言語横断汎化能力
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P9-22.pdf
LLM分析評価
- 大規模言語モデルの事前学習データがほとんど英語でも、他の言語にも対応できる (言語横断汎化) のはなぜか
- 実験1: 英語で instruction tuning したモデルを多言語で評価
- instruction tuningした方が性能が向上する
- 実験2: 英語とそれ以外の言語の対訳ペアの分埋め込み表現を獲得、instruction tuning前後の類似度を計算
- 類似度の変化は小さい
- → instruction tuning を通じて「事前学習時に既に獲得していた多言語表現に基づき,言語横断的なタスクを解く能力を学習した」と推測
P10-13 機密情報検知における生成AIを用いたデータ拡張
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P10-13.pdf
LLM分析評価
- 個人・顧客の機密情報の漏えいを防ぐため、固有表現抽出 (NER) の考え方をベースに機密情報検知モデルを構築したい。学習 (主にfine-tuning) には高品質なデータセットが必要。
- 生成 AI のハルシネーションを活用し、データ拡張する
- 周辺文脈の拡張: 企業名を含む文をLLMが生成
- エンティティの拡張: 架空の企業名をLLMが生成し、元データの企業名と置換する
- 拡張したデータで学習することで精度が向上
D11-1 テキスト編集事例の編集操作への自動分解
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D11-1.pdf
人間と計算機のことばの評価 - テキストの編集操作系列を生成する - source から target に変換するとき、最小のまとまりごと操作したと考える
Scientists who study the brain
→ Researchers who study the brain
→ Brain researchers
- 編集操作を同定することでシステムの振る舞いを理解できる
- 提案手法: ラティス生成 (中間文候補の生成とフィルタリングの繰り返し) とパスの探索
余談: 神戸の思い出
毎日ポートライナーに乗って会場まで行きました。 通勤時間帯は満員電車でヤバいと聞いていたのですが、東京都心の通勤時間帯に比べると余裕があった気がします。
ポートアイランドのような人工島がある港町で、横浜・京浜工業地帯っぽさがあるのですが、六甲山がすぐそばにあるのが景観的に大きな違いだなと思いました。 会場から遠くて行く余裕がなかったため、今度神戸周辺に行く機会があればチャレンジしたい。
また、帰る前にメリケンパークにある 神戸港震災メモリアルパーク に立ち寄りました。 神戸もまた、震災から復興した都市であることを思い出しました。
ちょうど金ローの すずめの戸締まり で、がっつり神戸が出てきたので思い出しがてらの余談でした。