行政データでデータ分析(初級編)

前書き

今回は公表されているデータを使ってデータ分析をざっくりやっていきます。
今回使用したのは以下のデータです。本当は地元の京都市で分析したかったのですが、こちらの方がデータ上、敷居が低かった為です。

www.city.kobe.lg.jp

転出入データの解析

eurf_2020 = eurf_2020.loc[~eurf_2020['対象年月'].isnull()]
eurf_2020 = eurf_2020[['対象年月', '区名', '支所等', '地域', '転出入', '値']]
kobe_all = eurf_2020.loc[(eurf_2020['区名']=='全市') & (eurf_2020['転出入']=='転入超過数')]
kobe_graph = pd.pivot_table(kobe_all, index='対象年月', columns='地域', values='値', aggfunc='sum')
kobe_graph
f:id:electric-city:20210209114625p:plain:w600:h250
転出入時系列データ(2020)

列が多い(兵庫県内の自治体別に表示されている)為、少々分かりにくいのでアスタリスク(*)が含まれている列(地方別)のみに限定して、データ表を作り直します。

kobe_all2 = kobe_all[kobe_all['地域'].str.contains('\*')]
kobe_graph2 = pd.pivot_table(kobe_all2, index='対象年月', columns='地域', values='値', aggfunc='sum')
kobe_graph2
f:id:electric-city:20210209115124p:plain
転出入時系列データ(2020)

グラフ化

転出入時系列データ(2020)市全体 対地方別

import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(20,6))
for i in kobe_graph2.columns:
    plt.plot(list(kobe_graph2.index), kobe_graph2[i], label=i)

font = {"family":'IPAexGothic'}
plt.rc('font',**font)
plt.legend(prop=font)
f:id:electric-city:20210209115252p:plain
転出入時系列データ(2020)<対地方別>

3月4月の転出入が多い点は年度始めであることから合点がつきます。西日本エリア(中国・四国・九州)からの転入と首都圏・大阪府への転出が目立ちます。

転出入時系列データ(2020)行政区別

kobe_data = eurf_2020.loc[(eurf_2020['地域']=='<< 総数 >>') & (eurf_2020['転出入']=='転入超過数')]
kobe_graph3 = pd.pivot_table(kobe_data, index='対象年月', columns='区名', values='値', aggfunc='sum')

import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(20,6))
for i in kobe_graph3.columns:
    plt.plot(list(kobe_graph3.index), kobe_graph3[i], label=i)

font = {"family":'IPAexGothic'}
plt.rc('font',**font)
plt.grid()
plt.legend(prop=font)
f:id:electric-city:20210209115638p:plain
転出入時系列データ(2020)<行政区別>

中央区の転入が目立ちますが、おそらく文教施設の存在や繁華街・人・物・金の集積地であることが要因かもしれません。一方西区の転出が目立ちますが、これは単に人口が多い事(市内1位)・ニュータウンとして時間が経過している・利便性の課題が挙げられそうです。東灘区の3〜4月の転出入の振れ幅が大きいことは、文教施設が多く立地している点(甲南・神戸国際・甲南女子)が考えられるでしょうか。

今後

  • 人口比率で考慮する
  • 2013〜2020年度のデータで解析
  • 第一次・二次・三次産業で比較