市区町村の読みって意外と曖昧性があるなと気づき、調べてみることにしました。
市区町村の位置を可視化するにあたり、geopandas を使ってみたのでメモします。
詳細については一番下にgistで埋め込んでます。
要点
geopandas で日本地図を扱うには。
都道府県だけであれば japanmap のポリゴンデータをつかう
市区町村は 国土数値情報 | 行政区域データ のシェープファイルを使う
- 全国だとデータがそこそこ大きく読み込むのに時間がかかる
- 参考: [python] geopandasでchoropleth. 北海道を振興局単位で色分け | あきとしのスクラップノート
課題 (未解決)
geopandasで試行錯誤した部分について
cmap でカテゴリ色づけが順序通りされない
- 2種類の場合、カテゴリの最初の色とカテゴリの 最後の色 を使う
- Choosing Colormaps in Matplotlib — Matplotlib 3.7.0 documentation の tab10 の場合、青とオレンジではなく、青と水色を使う
島を含むと画像が縦長・横長になってしまう
可視化結果
上記点を踏まえて可視化しました。
都道府県の可視化
「町」の割合、「町」の読みは「まち」か「ちょう」か
「町」の割合が高い都道府県 TOP5
都道府県 鳥取県 0.736842 北海道 0.697297 和歌山県 0.666667 徳島県 0.625000 宮城県 0.571429
「町」の読み方は西日本・東日本で分かれている印象。 九州は混在している。
市区町村の可視化
「町」率が高い鳥取県の読み方を可視化。全部読みは「ちょう」。
「まち」「ちょう」の読みが混在している九州を可視化
福岡県・大分県あたりは「ちょう」が集中していて、それ以外は「まち」になっている。
gist
可視化の出力に使ったコードは以下。
japan_map_geopandas_都道府県_市区町村.ipynb · GitHub
もう少し深掘りできそう。