統計データの信頼性

硬い分析の記事だけでなく、関連する話題について雑談もたまに書いていこうかと思います。

「ギリシャは信用できず」=統計修正で異例の批判−欧州委(時事通信)
ギリシャ財政赤字に関する統計が大幅に修正されたそうです。
統計データの信頼性は、統計を元に分析をする人に取っては大問題です。公的機関が発表している統計は、設問の設定や標本の抽出などに細心の注意を払って信頼性を保っているので、それがこんなに大幅に修正されると(特にこんな時期に!)非難されるのは仕方ないです。

ただ、こういうことは例外的で、日常的にもっと重要なのは、新聞社などを含む民間機関が行っている調査は、かなり信頼性に疑問なものが多いということです。あまり頼りにしたくない民間統計なのですが、民間統計でないと手に入らないデータも少なくないので、注意して信頼性を確認する必要があります。
とりあえず、以下の点くらいには注意しておく必要があるかなと思っています。

1. 設問が公正か?
『正しい統計データ』を使ってウソをつく方法」にわかりやすい例があるのでそれを見てもらうといいですが、設問の作り方次第で結果をある程度操作することができてしまいます。

2. 母集団は何か?
統計は、コストの問題からほとんどの場合は標本(サンプル)を取って調査するのですが、その標本がどういう全体(母集団)を代表することを意図しているのかに注意を払う必要があります。よくあるインターネット調査とかの場合、母集団という概念そのものが欠けていることがあって、全く意味のない統計であることも少なくないようです。また、標本抽出の方法に問題があることもあります。
面白い話で、厚生労働省が平均入院日数の国際比較をしたそうですが、調査対象がバラバラだったために信頼性に欠けた調査になったということがある(平成医新 「厚労省批判 3」)そうです。公的機関の統計でも、母集団の確認は怠ってはいけないという例と言えます。