エイエイレトリック

なぐりがき

2021-01-01から1年間の記事一覧

mecabの制約付き解析(部分解析)のエラー

mecabの制約付き解析(部分解析)を使おうとしたら結構詰まったのでエラーとその解決策についてメモします。 前提知識 mecabの --partial (-p) オプションを使うと辞書に登録されてない単語でも解析できます。 $ mecab 例えばコ↑レ↓を名詞にしたいときがある…

django rest frameworkのschema自動生成の仕組みとカスタマイズ方法

Django REST framework (DRF) は Django で Web APIを構築するのに便利なパッケージです。 schema (スキーマ) を使えば OpenAPI (Swagger) のフォーマットでドキュメントを生成することができます。 この記事では、drfでどのようにスキーマが生成されるのか…

気軽に使えるngramデータ「日本語ウェブコーパス 2010」を使ってみる

nlp

自然言語処理向けの日本語のデータって思ったよりも少ない気がします。 特に研究用途でのみ許可されているコーパスが多く、趣味で試したい時にどのデータを使うかで結構時間を使ってしまいます。 「日本語ウェブコーパス 2010 」はテキストデータに関しては…

アルファベットをカタカナに変換するpythonパッケージalphabet2kanaを公開しました

TL;DR 機能 経緯 関連パッケージ python-romkan alkana.py poetryを使ってpypiに登録する TL;DR ありそうでなかった、アルファベットをカタカナに変換するや〜つを作りました。*1 github.com ABC を エービーシー に変換します。 読みの付与に使うことを目的…

scikit-learnにmecab日本語分かち書きを組み込む方法

nlp

pythonで (深層学習ではない) 機械学習をするとなるとまず使うのがscikit-learn、さらに扱うデータがテキストとなると大体の場合 CountVectorizerや TfIdfVectorizer といった特徴量抽出 feature_extraction.text で前処理を行うことが定番だと思います。 し…

EMNLP2020読んだ論文メモ

EMNLP2020の論文を去年から少しずつ読んでいたので、メモをまとめてブログにあげます。 2020.emnlp.org 気になった論文をチョイスしているので、いつもはタスク提案・メタ分析・固有表現 (NER) の論文を選ぶことが多くなってしまうのですが、今のご時世もあ…