2018/07/18

どれをインストールしたらいい?医療で使える統計解析ソフトウェア6選


SAS、JMP、SPSS、EZR(R)、Pythonなどの統計解析用のソフトウェアは有料から無料まで数多くあり、 どのソフトウェアが自分に一番合うか分かりません。EXCELから一歩進みたい方のために各ソフトの特徴をまとめました。

医療統計を学ぶための解析ソフトウェアの選択


統計の知識がついてくると、数式の結果をソフトウェアで確かめたくなります。 普段からEXCELでグラフ作成をしたり、平均や分散の他にも関数を使いこなしている方でも、本格的なデータ解析ができるソフトウェアに乗り換えるにはいくつかのハードルがあります。
  • そもそもどの統計解析ソフトウェアを使ったらいいかわからない
    統計ソフトには無料から有料のものまで数多くの種類があります。ソフトウェアにより、その使い方も異なります。例えば、データを選択するだけで済むものもあれば、プログラムを組む必要のあるものもあります。 
  • インストールが複雑かつ面倒
    手軽に統計ソフトウェアを試せない理由の1つとして、ソフトウェアのインストールがあります。EXCELではソフトを起動すれば合計や平均を関数で簡単に求めることができます。無料の統計解析ソフトウェアの中にはすぐに起動できずに、ソフトウェア本体をインストールするためにパッケージ管理ソフトやライブラリーを事前にインストールすることから始める必要がある場合があります。インストーラーをダウンロードして起動、次、次、OKというようにはならなくて、何をインストールするのかコマンドラインに打ち込む必要があるということです。統計ソフトを使って統計を学びたいのに、事前に何ができるのかを知っていないとインストールできないということが問題です。
    余談ですが、エクセルでも複雑なデータ処理を行うこともできますが、少し見えにくいところ(アドイン)から機能を追加するようになっています。 
  • もちろん使い方は統計解析ソフトウェアによりマチマチ
    元になる計算は一緒でも表記だけでなく文法を含めて書き方が違います。書店にいけば様々な統計ソフトに対応した書籍が並んでいますが、同じ内容の解説をしている部分を比較してみれば、使っているソフトによってプログラム例、結果の表示まで、実行例が違います。

どのような統計ソフトが有名か

統計のソフトには下記の5種類が知られています。どのソフトも様々なデータ形式に対応しているので、EXCELで学習したデータが無駄になることはないでしょう。特に、統計検定2級以上を受けようと思っている方などは実地にデータを入れて試してみたくなるのではないでしょうか。また、これらのソフトは決して高価なもしくは高機能な Excelではないです。統計処理するデータがAIや機械学習の分野にまで及んだ時点でEXCELで処理できるデータ数と操作が追いつかなくなります。

有料 
  • SAS
  • JMP
  • SPSS
    有料のものでも体験版やアカデミック版で試用感を確かめることができます。 
無料

SAS(Statistical Analysis System)


医療関係の第3相試験では申請時資料に使用するためにSASが用いられていることが多いように思います。 医師主導の臨床試験で行われた試験報告にはJMPやSPSS時にはExcelも出てくることがあります。高価である分だけ信頼性も高く解析の手法も多岐に渡ります。アカデミック版のSASがあるのでSASを使いこなせるのは理系で専門の教育を受けた人になるのではないかと思います。デザインの世界でAdobeのPhotoshopやillustratiorを使うような感覚だと思います。 

JMP

JMP (ジャンプ)はSASのJMPビジネスユニットにより開発されました。データの可視化とパワフルな統計機能をあわせ持ち、インメモリで処理を行うデスクトップ用ソフトウェアです。1989年当初にAppleのMacintosh用に作成されたものだけあって直感的な操作に適しています。2018年現在、30日間の無料トライアルと年間ライセンス版、パッケージ版が提供されています。 

SPSS


SPSSは2009年にIBMが買収以降、統計解析ソフトウェアの製品群として提供されています。 予測分析ソフトウェアとして商用のパッケージになります。 

R言語(EZR)


1984年にAT&Tベル研究所で研究・開発された統計処理言語であるS言語を元にしたオープンソース・フリーソフトウェアです。様々なパッケージをインストールすること統計に適した解析環境が出来上がります。 マウス操作だけで解析できるRコマンダーのカスタマイズ機能を組み込んだソフトウェアがEZR (Easy R)です。特に生存解析、ROC曲線解析、メタアナリシス、サンプルサイズの計算など、医療統計で役立つ解析が充実しています。 


Python


Pythonの発案者はグイド・ヴァンロッサムで1990年代初頭から開発が行われています。 万人のためのコンピュータプログラミングを目指しており、オープンソースで平易であり、開発時間を短くできるような工夫をしています。Python本体は最小限の機能を提供し、統計処理や機械学習、AI、Webのフレームワークなどは別途必要なものをインストールして使用します。 
私は統計だけでなく、Webサービスとの連携も考慮した環境を得たかったのでPythonを使用しています。 Pythonで面食らうのは、バージョンとインデントです。バージョンの2.0と3.0でプログラムの記載方法が若干異なり、Webに掲載されているサンプルプログラムがそのまま動かないことがあります。例えば、print文のバージョン3.0では「()」が必要になります。 他の言語ではインデントはプログラムの可読性をよくする意味で使いますが、pythonの場合はスペースの開け方を間違うとエラーが出ます。 
Pythonの生みの親として知られるグイド・ヴァンロッサムさんですがgoogleにいたこともあるようです。you tubeやらdropboxも実はpythonで書かれていたということがあります。 

SAS、JMP、SPSS、EZR、Python結局どれがいい?


SASやJMPなどの有料版が適しているのは、企業や大学などでライセンスがあり近くに聞ける人がいる状況がある場合です。お金に余裕がある個人とかもいいかもしれません。また、企業のトレーニングコースも参考になると思います。 統計検定や治験の統計解析に関わるのではなく、理解を深めるために統計解析の結果を試したいのであれば、R言語(EZR)やPythonが適しているように思います。EZRは論文での引用もされていますし、R言語はライブラリがかなり整備されています。Webとの相性はPythonの方がいいように思いますが、場合によってはライブラリーのバージョンを合わせる必要があったりと、細かな調整やある程度プログラムを組まないといけないことがあります。 ただ、いずれの言語にしても相互に乗り入れる仕組みがあるので1つのソフトをまずはじっくり使えるようになることがいいと思います。