高速で実行可能な日本語の係り受け解析ライブラリがないか調べていたところ、 J.DepP という 日本語係り受け解析器を見つけたので、紹介します。
C++で実装されているのもあり、かなり高速に動作する印象です。
サイトに記載されている通りに実行してもインストールできなかったので、google colab上で動作確認しました。 コードは Github の gist としてアップロードしています。
gist はこちら: https://gist.github.com/shihono/bc2a144c64d485439a0671b33fdeb220
インストール方法
分かち書き (mecabの形態素解析) なしで実行したい場合
wget https://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/jdepp-2022-03-18.tar.gz tar zxvf jdepp-2022-03-18.tar.gz cd ./jdepp-2022-03-18 ./configure -disable-autopos-train CXX=/usr/bin/clang++ make model make install
分かち書き (mecabの形態素解析) も同時に実行する設定でインストールしたい場合
※ mecab と juman辞書 のインストールが必要
wget https://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/jdepp-2022-03-18.tar.gz tar zxvf jdepp-2022-03-18.tar.gz cd ./jdepp-2022-03-18 ./configure --enable-standalone CXX=/usr/bin/clang++ make model make install
詳しい説明は gist にあるので、詳細はそちらを参考にしてください。
要するに clang++ を指定してビルドすれば動きます。
C++ のコンパイラがデフォルトで clang であれば CXX=/usr/bin/clang++
の指定は必要ないと思われます。
Mac OS の場合もclang指定にすれば動きます。
自分のMac book (macOS Monterey) は brew の gcc を設定しているのですが、google colabと同様のエラーが出ました。
留意事項
4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。 https://nlp.ist.i.kyoto-u.ac.jp/kuntt/
- cabocha と同様に 京都大学テキストコーパス (kyoto) も学習データとして指定できる。
- ただし、自分でデータを用意する必要がある。毎日新聞のデータなので、個人ではちょっと難しい。
- macの場合、MacPorts から簡単にインストールできるが、mecabの設定が J.DepP 用に上書きされる(globalに)。
- すでにmecabをインストールしている環境にはオススメできない。
J.DepP
という名前ゆえか、ググってもあまり情報が出てこないのでまとめました。