Python によるデータ分析入門

『Pythonによるデータ分析入門』Wes Machinney 著を一通り通読した。この本は一体どういう本なのだろうか。それは、巻末の著者紹介を読めばわかる。以下に引用する。

著者紹介
Wes McKinney (ウェス・マッキニー)
ニューヨークを拠点に活動するデータハッカー兼起業家。MITで数学を専攻し、2007年に卒業した後は、コネチカット州グリニッジのAQR Capital Management でクオンツ運用に従事。使いにくいデータ分析ツールに辟易し、2008年に Python を覚えて、のちに pandas と呼ばれることになるプロジェクトを始める。現在 Python の科学コミュニティーのアクティブメンバーであり、データ分析、金融、統計計算アプリケーション部門での Python 推進者でもある。

つまり、この本は金融関係のデータマイニングに Python を使う人のための本だ。それ以外には、数値データを統計処理する研究者にも有用だろう。管理人は残念ながらそのどれにも該当しない。

この本は pandas を使いこなせるようになるための教科書だ。ただ、pandas というライブラリの使い方を学ぶだけでは使えるようにはならないようだ。pandas を使いこなせるようになるためには IPython、Numpy 、matplotlib などのライブラリの知識も必要だ。これらのライブラリが有機的に pandas と組み合わされることによって。数値データの統計的な分析を効率的に行うことができる。

この本では、Ipython、Numpy、pandas、matplotlib という4つの Python のモジュールが有機的に解説されていて、pandas を用いたデータ分析が実践的に行えるようなるように構成されている。

Python で金融データの処理や、統計計算をしてみたいと思う人にはお勧めの一冊ではないだろうか。また、AI を使ってみたいと思って Python を学ぶ人にも必読の書だろう。

しかし、単に Python を使ってみるという目的のためにもこの本は示唆的だ。まず、IPython は、Python を対話的に使うだけでなく、シェルとしても使うことができるのが分かる。IPython 上でデータを扱うためのファイル操作を含めてすべてを行えるのだ。Numby は ndarray という多次元の数値データ型を提供し、複数の数値データを全くループを書くことなく自由に加工することが可能になっている。また、matplotlib を使うことによってこれらのデータを簡単に図表化することによって数値データの可視化を行える。pandas は Excel に似た表計算のデータを Python で簡単に処理するためのモジュールだ。pandas の最大の利点は欠落データのある数値データを簡単に取り扱えることだろう。実世界のデータを扱うときに欠落データの処理は必発だ。

対話的な環境で、複雑なデータをオブジェクトにくるんで、ループなどの制御構造なしにリアルタイムに処理するというスキーマは Python 以外のプログラム言語を使う際にも共通する重要な戦略になるような気がする。

[PR]
by tnomura9 | 2018-04-11 22:11 | Python | Comments(0)
<< ipython --pylab Python と JSON >>