エイエイレトリック

なぐりがき

ngram language model

NLTKのngram言語モデルを日本語データで使う

nlp ngram language model

以前の記事で、古典的ngram言語モデルについて、NLTKを利用し、英語データセットの結果をまとめました。 eieito.hatenablog.com 単語を分かち書きさえすれば日本語でも実行可能なので、日本語データセットでパープレキシティを算出していきます。データ学…

ngram言語モデルについてまとめる (neural language model)

nlp ngram language model

4記事にわたり、複数の古典的ngram言語モデルについて試しに実装してきました。 torchtextのデータセットを使ってきたので、pytorchで簡単な言語モデルを作ってみます。元となる論文があるわけではないですが、ネット上に多数実装が多数あるので、それらを…

ngram言語モデルについてまとめる (Interpolated Kneser–Ney smoothing)

nlp ngram language model

eieito.hatenablog.com 前回、NLTKで動かしてみた Interpolated Kneser–Ney smoothing (長いので以降 Interpolated KNと略します) をpythonで実装してみました。詳細は gist にアップロードした notebook に記載しています。（二度手間になるのでnotebook …

ngram言語モデルについてまとめる (NLTKのngram言語モデル)

nlp python ngram language model

Kneser-Ney smoothing を実装しようと調べていたところ、NLTKで実装されていたのでNLTKのngram言語モデルの使い方についてまとめます。前処理にちょっと癖があるものの、エントロピーなど数値の算出が共通化されているのでモデルごとの違いを比較しやすい気…

ngram言語モデルについてまとめる (ヘルドアウト推定・Good-Turing)

nlp ngram language model

前回に続いて、古典的な言語モデルについてpythonで実装して比較していきます。 eieito.hatenablog.com add-one や ELE は下の式をベースに、対象の単語の ngram と (n-1)gramの頻度を使って確率を求めていた。今回は頻度 r に注目した手法です。未出現…

ngram言語モデルについてまとめる (add-one)

nlp ngram language model

サイコロ本 (統計的自然言語処理の基礎) で確率的言語モデル(ngram言語モデル) のバリエーションについて少し勉強したので、実装して比較してみます。 ngram言語モデルスムージング 1-加算 (add-one) Lidstoneの法則実装前処理データ tokenizer vocab co…