2018/06/16

数量化理論によるアンケート分析。集計結果をグラフ化するために。


はじめに


アンケート調査では数値ではなく、性別や血液型、選択肢を選ぶようなカテゴリーデータが多くなります。これらのデータを解析するのに役立つのが数量化理論と呼ばれる手法です。数量化理論は1つの手法ではなく、大きく4つの手法に体系立てられています。活用頻度が高いものはⅠ類、Ⅱ類、Ⅲ類、Ⅳ類です。

数量化理論I類は回帰分析と同等の手法、数量化理論Ⅱ類は判別分析、数量化理論Ⅲ類はコレスポンデンス分析と同等の手法、数量化理論Ⅳ類は多次元尺度構成法と目的を同じにする手法です。数量化理論は手計算では解くことが困難でありコンピュータやアプリケーションの発展に伴って進歩してきました。

数量化理論の概略


数量化理論Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類の概説と特に数量化理論Ⅲ類はコレスポンデンス分析について見ていきたいと思います。
  • 数量化理論I類
    数量化理論I類は、説明変数が数値では表現できないカテゴリーデータで構成される質的変数で、目的変数が数量データで構成される量的変数のときに、説明変数を使って目的変数を予測または説明するときに使われます。説明変数がダミー変数で目的変数(特性値)が連続変数であるような重回帰分析に対応します。

  • 数量化理論Ⅱ類
    数量化理論Ⅱ類は、説明変数が数値では表現できないカテゴリーデー夕で構成される質的変数で、目的変数もまた質的変数のときに、説明変数を使って目的変数を判別または説明するときに使われます。説明変数がダミー変数の時の判別分析と同等な手法です。

  • 数量化理論Ⅲ類
    数量化理論Ⅲ類は、数値では表現できないカテゴリーデータで構成される質的変数を要約するための手法です。データ表としては、クロス集計表または01型データ表が与えられているときに、行および列の各項目に適当なスコアを与えて、その結果をグラフ化して視覚的に捉えることで、もとの情報を要約することを目的としています。 数量化理論Ⅲ類はコレスボンデンス分析、双対尺度法と同等な手法です。

  • 数量化理論Ⅳ類
    数量化理論Ⅳ類は、n個の個体の間に相互の親近性が与えられたときに、n個の個体をr次元の空間内の点として表わすことで、視党的な表現から知見を得ルための手法です。多次元尺度構成法と呼ばれる手法と目的は同じです。

数式で詳しく知りたい方は「数量化理論とテキストマイニング」(内田 治)によく書かれております。

数量化理論Ⅲ類(コレスポンデンス分析:correspondence analysis)


クロス集計表への分析適応、アイテム・カテゴリー型(01型)の分析、多重コレスポンデンス分析の順に複雑になっていきます。クロス集計表への適応は棒グラフでクロス集計を理解するのに補助的な役割を果たします。 アイテム・カテゴリー型はダミー変数の考え方で01型に置き換えることができます。多重コレスポンデンスは、アイテム・カテゴリー型、01型が複数組み合わせたものです。


バイエル薬品株式会社から一般女性を対象とした「子宮内膜症および月経マネジメントに 関する意識・実態調査」結果が発表されておりましたので、そちらを例にしてクロス集計表へコレスポンデンス分析を適応して見ます。


月経に対して月経のスケジュール調整や頻度、月経血量の減少、月経に関連する症状(月経痛、月経前のイライラなど)の緩和、避妊、月経が原因となる疾患(子宮内膜症、卵巣がんなど)の予防と言った希望をどの程度希望するか設問しています。 その後月経のコントロールを希望しない理由を症状と合わせてアンケートしています。


『薬剤服用による月経コントロールに関して、月経痛の緩和、病気の予防について約6割が希望 一方で希望しない女性では「薬を飲むことに抵抗感がある」ことを多く理由にあげる』ということでクロス表(下記のリンク参照)からも読み取れます。


列名を1から7に、行をAからGにして、%を人数に置き換えます。


これをコレスポンデンス分析にかけてみます。

選択肢の「8その他」、「9特に理由は ない、なんとなく」は値が小さいことと選択肢に意味がないので除外しました。 コレスポンデンス分析では相互の関係性を見るので、無関係な質問は解釈が成立した時点で除外していきます。 




次元がどれくらい各変数を説明しているか固有値を見ると第3次元までありそうです。
下記の3つの因子があるために、軸にへばりついた形になっています。
  • 5 将来子供が 産めなくなると怖いから
  • 7 必要性を感じない から
  • F 避妊すること
コントロールを希望しない理由は、避妊することに関して必要性を感じていないという解釈がなされます。



これら3つの因子を除外して再度コレスポンデンス分析を行います。0に近い部分はあまり考えなくて良いので、下記の3つのグループにすることができます。


下記のように、今度は第2次元で説明ができているようです。



クロス集計表へのコレスポンデンス分析の適応はグラフを注意深く見れば、結論が出てくるものかもしれませんが補助のツールとして役立ちます。解析する数が大きくなるとグラフを目で追うことが困難になるので、01型のダミー変数を使うような場合は特にコレスポンデンス分析が威力を発揮します。

図の読み方を詳しく知りたい方は「すぐわかるSPSSによるアンケートのコレスポンデンス分析」(内田 治)によく書かれております。

(その他各社からのアンケート結果のまとめ)

数量化理論からデータサイエンスへの架け橋

数量化理論はHayashi's Quantification Methodsとも呼ばれ、日本の統計学者により発展した手法です。中心となったのは林知己夫(はやし ちきお)博士で統計数理研究所第7代所長を務めた方です。この方は数量化理論だけではなく、1990年代以降はデータサイエンスを提唱しました。

林知己夫氏博士の書籍は、日本マーケティング・リサーチ協会 (JMRA)で閲覧できるそうです。


マーケティングの発展にはコンピュータやアプリケーションの発展のほかにも研究者たちによる概念の構築も同時になされていたことが非常に興味深く感じられます。

まとめ

数量化理論としてⅠ類、Ⅱ類、Ⅲ類、Ⅳ類の4つの手法を概説しました。アンケート調査を視覚的な表現で見ることができるコレスポンデンス分析の実例を示しました。この数量化理論の考え方を応用し、pythonやRなどのアプリケーションでテキストマイニングを組み合わせることで文章データを統計的に解析することができるようにもなります。

(参照サイト)
(関連コンテンツ)