藤井 恵介 Keisuke FUJII

京都大学 工学研究科

2.1. 概要

データ駆動科学が第4の科学的手法と言われ近年注目を集めています。 なかでもPythonは、データ科学の分野で最も人気を集めている言語です。 Tensorflowやchainer、pytorchなど、最新の深層学習ライブラリは全てPythonにて実装されています。 ただしデータ科学に重要なのは、深層学習など先端的なアルゴリズムだけではありません。 手持ちのデータを素早く可視化して内容を理解したり、 既存のアルゴリズムに渡せるように複数データを合成したり、不良値や欠損値を埋めたりのような 前処理の部分が意外と重要で手間がかかることが知られています。

ここでは、このようなデータ科学にフォーカスされたライブラリを紹介します。 まず多次元データ処理ライブラリとして、 xarray の使い方を概観します。 これらのライブラリはアルゴリズムというようりは、 多様なデータを素早く扱うことができるインターフェースを提供するものです。

次に、機械学習アルゴリズムが実装されているライブラリとして scikit-learn を紹介します。 有名なアルゴリズムが数多く集められているライブラリで、 様々なアルゴリズムを気軽に試すことが特徴です。 最後に、高速な GPU 計算を簡単に実現することを目的として開発されている cupy というライブラリを簡単に紹介します。

なお、今回の記事で紹介する計測データには https://github.com/PlasmaLib/python_tutorial/tree/master/data からアクセスできます。 ぜひダウンロードして、各自のPCで操作を体験してみてください。

Keywords: Python, data science, libraries, machine learning, GPU computation