行政データでデータ分析(初級編)
前書き
今回は公表されているデータを使ってデータ分析をざっくりやっていきます。
今回使用したのは以下のデータです。本当は地元の京都市で分析したかったのですが、こちらの方がデータ上、敷居が低かった為です。
転出入データの解析
eurf_2020 = eurf_2020.loc[~eurf_2020['対象年月'].isnull()] eurf_2020 = eurf_2020[['対象年月', '区名', '支所等', '地域', '転出入', '値']] kobe_all = eurf_2020.loc[(eurf_2020['区名']=='全市') & (eurf_2020['転出入']=='転入超過数')] kobe_graph = pd.pivot_table(kobe_all, index='対象年月', columns='地域', values='値', aggfunc='sum') kobe_graph
列が多い(兵庫県内の自治体別に表示されている)為、少々分かりにくいのでアスタリスク(*)が含まれている列(地方別)のみに限定して、データ表を作り直します。
kobe_all2 = kobe_all[kobe_all['地域'].str.contains('\*')] kobe_graph2 = pd.pivot_table(kobe_all2, index='対象年月', columns='地域', values='値', aggfunc='sum') kobe_graph2
グラフ化
転出入時系列データ(2020)市全体 対地方別
import matplotlib.pyplot as plt %matplotlib inline plt.figure(figsize=(20,6)) for i in kobe_graph2.columns: plt.plot(list(kobe_graph2.index), kobe_graph2[i], label=i) font = {"family":'IPAexGothic'} plt.rc('font',**font) plt.legend(prop=font)
3月4月の転出入が多い点は年度始めであることから合点がつきます。西日本エリア(中国・四国・九州)からの転入と首都圏・大阪府への転出が目立ちます。
転出入時系列データ(2020)行政区別
kobe_data = eurf_2020.loc[(eurf_2020['地域']=='<< 総数 >>') & (eurf_2020['転出入']=='転入超過数')] kobe_graph3 = pd.pivot_table(kobe_data, index='対象年月', columns='区名', values='値', aggfunc='sum') import matplotlib.pyplot as plt %matplotlib inline plt.figure(figsize=(20,6)) for i in kobe_graph3.columns: plt.plot(list(kobe_graph3.index), kobe_graph3[i], label=i) font = {"family":'IPAexGothic'} plt.rc('font',**font) plt.grid() plt.legend(prop=font)
中央区の転入が目立ちますが、おそらく文教施設の存在や繁華街・人・物・金の集積地であることが要因かもしれません。一方西区の転出が目立ちますが、これは単に人口が多い事(市内1位)・ニュータウンとして時間が経過している・利便性の課題が挙げられそうです。東灘区の3〜4月の転出入の振れ幅が大きいことは、文教施設が多く立地している点(甲南・神戸国際・甲南女子)が考えられるでしょうか。
今後
- 人口比率で考慮する
- 2013〜2020年度のデータで解析
- 第一次・二次・三次産業で比較