データ分析に用いられる多くのツール
- データマイニング
- ビッグデータの活用
- マーケティングデータ分析
など、今では色々な場面でデータを分析する機会があります。
データ分析に使うことができるプログラミング言語やソフトウェアなどはたくさんあります。
今日は、比較的広く知られているツールの一部を紹介します。
うまくツールを活用することで、
- 気軽にデータ分析を始める
- 本格的にデータ分析に取り組む
- 大規模データを解析
など色々な取り組みが可能になります。
プログラミング言語
データ分析に用いられることの多いプログラミング言語がいくつかあります。
ここでは、
- R
- Python
- Julia
- MATLAB
- VBA
を紹介します。
R
R言語は、大学から企業までデータ分析の場面で広く用いられています。
近年広く知られるようになったR言語ですが、歴史は長く、登場時期は1993年とプログラミング言語としては古参に分類されるかもしれません。
- 分かりやすい構文から学習コストが比較的低いとされる
- データ分析用の豊富なパッケージ(ライブラリ)がある
などの点から、データ分析に活用されています。
などは、R言語のパッケージの代表例です。
R言語の統合開発環境(IDE)としては、RStudioが知られています。
R言語のチュートリアルには、
があります。R言語の解説がまとまっています。
また、
Simplilearn R Programming Full Course In 7 Hours
は、7時間近い動画の学習コースですが、わかりやすい英語でR言語の基本が説明されています。
Python
PythonもRと並びデータ分析に広く用いられています。
Web開発やAI、機械学習の研究開発に使われるプログラミング言語のPythonは、データ分析の場面でも、
- Excelや他データベースとの親和性の高さ
- 言語自体のシンプルな構文
- データ分析に活用できる豊富なライブラリやフレームワーク
などの理由から活躍しています。
- データの扱いをサポートするNumPy
- 複雑な科学計算が可能になるSciPy
- 表形式のデータの扱いが容易になるPandas
- グラフ描画のためのMatplotlib
などはPythonでのデータ分析の定番ライブラリ / フレームワークと言えます。
Pythonへの入門方法は、公式ページのドキュメントやチュートリアルの他に、
プログラミング言語学習でおなじみの
に専用のコースが設けられています。
また、世界的にプログラミング学習で有名なfreeCodeCampが
Pythonでデータ分析を行うための解説動画を公開しています。
データ分析でプログラミング言語を選択となった場合、PythonやR言語が選ばれるケースが多いように思います。
Julia
Juliaは、PythonやR言語ほど知名度はないかもしれませんが、
データ分析に用いられているプログラミング言語です。
Juliaの登場時期は2012年と、比較的最近ですが、
- 実行速度が速い
- 数値計算のためのプログラミングコードを書きやすい構文
- C言語やFortranのコードを呼び出せる
などのメリットから、データ分析や科学計算領域で使われています。
Fortranは、C言語よりもさらに歴史が長いプログラミング言語です。
数値計算プログラミングの記述に優れているとされ、スーパーコンピュータでの計算プログラムに今でもFortranが使用されるケースはあるようです。
データ分析用のプログラミング言語として歴史があるPythonやRに比べると、Juliaそのもののエコシステムはまだ発展途上かもしれませんが、独自の強みを持っているため、今後さらに広く使用されていく可能性はあります。
Julia、Python、Rの頭文字を取った
Jupyterというプロジェクトがあります。
データ分析や開発に活用できる色々なツールを整備するこのプロジェクトで注目されている3言語は、まさにデータ分析用プログラミング言語の御三家と言えるかもしれません。
公式サイトに多くのチュートリアルへのリンクが紹介されています。
日本語のチュートリアルもあります。
MATLAB
MATLABは、MathWorksが開発しているデータ分析に使用できるソフトウェアおよび、そこで使用できるプログラミング言語です。
シンプルな操作性と豊富なデータ分析用の機能により、大学から企業まで広く使われています。
MATLABは有料のソフトウェアですが、MATLABコードとの互換性を意識したソフトウェア、プログラミング言語が開発されています。
などが広く知られています。これらは基本的に無料で使用できます。
MATLABにはチュートリアルが用意されています。
大学や職場でMATLABが使用できる環境にある場合は、MATLABで、それ以外のケースはScilabやOctaveを使ってデータ分析に取り組むことが可能です。
VBA
VBAは、MicrosoftのOfficeで使用できるプログラミング言語です。
データ分析という面から考えた時に、MicrosoftのExcelやAccessを使って作業するというケースは少なくないと思います。
その際に、Excelでの関数操作やデータ分析の延長として使用できるのがVBAです。
VBAをうまく使うことで、ExcelやAccessでのデータ分析を効率化したり、高度な分析が出来るようになります。
公式のチュートリアルのほかに、
ドットインストールにもVBAの学習コースがあります。
日常的にExcelを使用することが多いという場合は、
Excel + Python
という組み合わせでデータ分析に取り組むことに加え、
Excel + VBA
という考え方もあります。
その他のデータ分析ソフトウェア
プログラミング言語だけでなく、ソフトウェアの面からデータ分析を支えるツールが数多く登場しています。
ここでは、データ分析ソフトウェアとして
- SAS
- SPSS
- Stata
を紹介します。
SAS
SASは、大規模なデータを扱う企業や大学などで用いられている統計解析ソフトウェアです。
公式サイトにはSASを用いたデータ分析の事例が多数掲載されています。
大規模なデータ分析に用いられることが多いため、個人利用の機会は少ないかもしれませんが、無償の試用版も用意されているようです。
有料のソフトウェアらしく、専用の学習コースも用意されています。
SPSS
SPSS(IBM SPSS)も広く知られている統計解析ソフトウェアです。
- 回帰
- 時系列分析
などの定番のデータ分析法から、
- ニューラルネットワーク
- ダイレクトマーケティング
など多様な分析に用いることができるソフトウェアです。
学生や研究者などアカデミック向けのバージョンも用意されているようです。
公式のチュートリアルがあります。
Stata
Stataは、政治経済、社会学などの社会科学系分野、医療系分野で広く用いられている統計解析ソフトウェアです。
これらの分野では、SASやSPSSよりもStataを目にすることが多いかもしれません。
StataやSPSSは、基本的なデータ分析に関しては、マウスとキーボードを用いたGUIによる操作が可能です。
そのため、PythonやJuliaなどのプログラミング言語の構文を学習するのに比べると、学習コストは低めかもしれません。
公式サイトにチュートリアルがあります。
用途に合わせて使う
今日は、データ分析に活用できるツールという観点から、プログラミング言語とソフトウェアを紹介しました。
それぞれ、
- 主に使われている業界や分野
- 学習コスト
- 有料か無料か
などに違いがあります。
自分の作業環境や取り組みたいデータ分析に合わせて、自分に合ったツールを選ぶと良いかもしれません。
計算結果、分析結果が間違っていないか検算するために複数のツールを活用することも有効です。
- Excelでの計算 + Pythonのデータ分析
- SPSSでの統計解析 + Rで統計解析
などです。
状況に合わせて、柔軟にツールを使い分けることで、データ分析を効率的に進められるのではないでしょうか。
コメント