エイエイレトリック

なぐりがき

2025-01-01から1年間の記事一覧

# 詳しくない言語の発音をローマ字表記にする + epitranの紹介

「日本語(というか漢字)は表意文字なので読めなくても意味はわかる。表音文字は意味はわからなくても読める」 という話がある。 前者の主張はわかるが、正直なところラテン文字以外は発音を推定することは難しい(私の場合)。 そういうわけで、色々な言語…

# Google Street View から埋め込み用のURLを取得するブックマークレット

ここ1年ぐらい Geoguessr というゲームをプレイしている。 Google Street View から、位置を予測するゲーム。 なので、ゲームの結果画面からStreet Viewのリンクに飛んで、実際の情報を確認することができる。 URLリンクを個人の notion に埋め込んで、復習…

# kuromoji.js で辞書にエントリーを追加する

形態素解析を JavaScript で実行できるのは kuromoji.js 一択です。 mecab のようにユーザー辞書を使おうとしたのですが、 どうやらそのようなオプションはなさそうだったので、 kuromoji.js のビルド機能を使って辞書を構築し直しました。 kuromoji.js の辞…

# slack でチャンネルをまとめてアーカイブする slack_archive_bot をつくった

slack channel のアーカイブを自動化するために Slack App (Slack Bot)を活用した機能を開発しました。 github.com 指定した期間、投稿がないチャンネルをまとめてアーカイブします。 実行にはPython のコマンドを叩きます。 まだ動作確認しきれてはいません…

# AWS SAM で Image を使って実行しようとしたらエラーになったメモ (Error: 'NoneType' object has no attribute 'get')

調べても解決策が出てこなかったためブログにまとめておく。 Macbook Air Apple M2 エラー時のバージョン $ aws --version aws-cli/2.24.0 Python/3.12.9 Darwin/23.5.0 source/arm64 $ sam --version SAM CLI, version 1.137.1 結論としては 「sam cli を最…

# NLP2025読んだ・聴いた論文メモ

昨年 と同様、言語処理学会年次大会の論文についてまとめます。 予稿集ページの発表一覧 の掲載してある順に紹介していきます。 P1-19 ニューラルかな漢字変換システム Zenzai P1-20 低資源言語のニュース機械翻訳のためのLLM を用いた合成対訳データの生成 …

# 大字・町丁目・街区の位置参照情報を geopandas で可視化

国土数値情報ダウンロードサイトの位置参照情報を使って住所を調べるのって本当に可能なのか気になったのでデータを見てみた。 全都道府県のデータはあるが、今回は東京都の位置参照情報を使った。 コードは gist でアップロードしている。 gist geopandas_…

# 市区町村名を冠する駅名がその市区町村に存在しない例を探す

タイトル通りです。 有名な例としては、品川駅は東京都品川区ではなく東京都港区にあります。 最近志木駅が埼玉県新座市にあることを知り、実際そういう駅がどれぐらいあるのか気になったので確認することにしました。 実行確認で利用した notebookは Gist …