「Python実践データ分析100本ノック」を読んだ感想

購入した本

「Python実践データ分析100本ノック」
著者 下山輝昌 (著),松田雄馬 (著),三木孝行 (著)

honto.jp

購入した経緯

Kaggleの問題を解いてみて、Pandasを用いたデータ分析に自信がないと思うようになりました。
Kaggleを始めたい!がデータの扱い方が分からん・・・と思う方には鉄板の一冊です!

内容

とりあえずこの1、2日の合間を縫って、6章まで終わらせてみました。
序盤はどのKaggleコンペでも必須となるコードが揃っており、
特にPython初心者は2、3周する価値があります!
(時間かけて1周するよりはさらっと数周した方がいいです)

Jupyter Notebookを用いて、
コード一文一文の理解と動作を確認しながら、
自分の手でスクリプトを実行できます。

1〜2章

1章、2章ではいわゆるデータ分析の扱い方をメインとしています。

  • csvファイルのインポート
  • データの結合
  • 欠損値データの処理
  • 日付時間データの処理
  • データの集計(GroupBY)

3〜5章

3~5章では少し実践的な内容が与えられます。

最新の顧客データを活用して、クラスタリング分析を活用して、
顧客の利用予測や退会予測を行います。
標準化や欠損値処理、文字列・日付時間データの処理も同時に学べます。
Kaggleコンペと比較すると、かなり易しい例題となっています。
しかしコンペの要領を容易く理解することができると思います!

6章から先

ここからは自分は読み進めている途中です。

最適化ネットワーク問題の実践問題をじっくりやった後、
画像処理と言語処理を発展編として少しだけかじっています。

オススメの勉強法

自分的には2、3周すると体系的にコードが書けるようになるのではないかと思います。
例えば...

  1. 軽く分からないところはとりあえずコードを写す
  2. 身についたと思ったら、コードは見ずに、本文だけでコードを書く

本文には「〇〇のデータを整形して、次に▲▲▲を集計する」といった書き方をなされているので、
その本の意図を汲み取り、コードを書けるようになれば、
自分の頭に浮かんだ内容も、少しは自分の力で実装できるようになると思います。

ただKaggleで与えられた課題に対して、取り組むアプローチ思考は
Kernelを読んだり、実践を重ねたりしていかないと実力がつきません!
この本で学べるのは、あくまでデータ分析に必要なツールといったこところです。