朝が苦手な人間が綴るブログ (限界大学院生編)

基礎こそ物の上手なれ. 人間万事塞翁が馬. を大切にしている経済学徒.

回帰分析やエクセル統計で出てくるダミー変数とは①??(計量講義3)

質問票調査、アンケート調査を行うことは大学生の間で何回か経験することだと思います。それは講義だったり、ゼミだったりサークルだったり。

 

調査結果の整理では必ずエクセルを使うと思いますが、ここでダミー変数が活躍してくれます。

 

まず、ダミー変数とは、

(0, 1)の二つの値(二値)しかとらない変数のことです。

ここでしっくりこない方のために噛み砕いて説明します。二値変数とも言います。

 

例えば質問で、男性 or 女性*を聞いて性別がわかっても、エクセルスプレッドシートに言葉を入力しても分析はできません。この場合、例えばですが、

男性=1, 女性=0 のようにします。これを、ダミー変数を作るともいえます。

 

二択の場合だけがダミー変数になりそうですが、それ以外にもダミー変数を作り出すことは可能です。

 

例えば、大阪府出身の人は他府県出身の人とは何か違う属性を持っている!(そんなことは無いと思いますが)と研究の仮定とします(よろしくない例ですね)。その場合、

大阪府出身=1, その他46都道府県出身=0 という風になります。

 

  • 男性ダミー:男性=1, 女性=0
  • 年収1,000万ダミー:年収1,000万円以上=1, 年収1,000万円未満=0
  • TOEIC800点ダミー:TOEICの点数800点以上=1, TOEIC800点未満=0

 

1の値をとる方の名前(ここではxx)を使って、その変数のことを「xxダミー」と呼びます。ここでは、男性=1なので「男性ダミー」です。

 

年収など、1(円)単位で細かくずっと続いている変数のことを連続変数といいます。

この連続変数である年収も、上のようにダミー変数にすることができましたし、

(300-400万円)=1、(401-500万円)=2、(501=600万円)=3・・・のように、飛び飛びで変数を作ることもできます。これを離散変数といいます。

 

 

エクセルでこのように(0, 1)の数字を与えてやることによって、グラフ作成もできます。

このダミー変数を用いた回帰分析については次回書きます。

 

 

 

 

*性別が二択という例は現代においてあまり最適ではないかも知れませんが、あくまでも一例であるということと、研究の上でダミー変数とすることが大変よくあるのでこの例をあげました。また、国の倫理審査を通した研究で使用する質問票調査では性別を聞く際には、「どちらでもない」などの第三の選択を用意しますし、一般のアンケートでもこれから調査する方はそうすると良いでしょう。