エイエイレトリック

なぐりがき

2022-02-01から1ヶ月間の記事一覧

ngram言語モデルについてまとめる (ヘルドアウト推定・Good-Turing)

前回に続いて、古典的な言語モデルについてpythonで実装して比較していきます。 eieito.hatenablog.com add-one や ELE は下の式をベースに、対象の単語の ngram と (n-1)gramの 頻度 を使って確率を求めていた。 今回は頻度 r に注目した手法です。 未出現…

ngram言語モデルについてまとめる (add-one)

サイコロ本 (統計的自然言語処理の基礎) で確率的言語モデル(ngram言語モデル) のバリエーションについて少し勉強したので、実装して比較してみます。 ngram言語モデル スムージング 1-加算 (add-one) Lidstoneの法則 実装 前処理 データ tokenizer vocab co…