アンケート調査は万能ではない ~データ欠損と選択バイアス~

突然だが、アンケート調査はまんべんなく人々の声を集められるか?

実際に日本国民全員にアンケートするのは現実的ではない。よって、このようなときは全体となる母集団から一部を抜き出した標本調査を行う。簡単に言えばランダムに数人抜き出せば全体の縮小版になるので、人々の意思をまずまず反映できるだろうということだ。

だが実際はそううまくいかない。アンケートは万能ではない。今回はそういう話。





機会均等性の無視

某国の大統領選挙を思い出してほしい。あの過激で問題発言の多い候補者Tに誰が投票するかと言われていたし、事前調査ではもう一方の候補者Hが優勢だったのに、蓋を開ければ勝者は候補者Tであった。

なぜか?

これは、候補者Hを支持する人はアンケート調査に素直に「私は候補者Hを支持します」と回答するのに対して、候補者Tを支持する人はアンケート調査に素直に「候補者Tを支持しています」と言いにくく、無回答としたり「候補者Hを支持する」と嘘をついたりしたからだ。

つまり、特定の選択肢について選びにくい事情がある場合、アンケート調査は実態と離れてしまう。選択肢にバイスがかかっていて機会が均等ではないのだ。

さらに面白いのは、機会均等性が保たれていない上記のような状況では、標本数(アンケートした人数)が多いほど誤りが多くなることもある。(※一般には標本酢が多いほど母集団の特性を正確に反映できる)


調査方法によるバイアス

応えにくい選択肢があるのならば、完全匿名のインターネットで調査するのはどうだろうか。この場合は調査方法によるバイアスに注意が必要だ。

現代ではその影響はだいぶ少ないかもしれないが、インターネットでアンケート調査をすると、対象が「インターネットの操作に慣れている人々」に限定されてしまい、これがバイアスとなりかねない。

東京で街頭調査をしても関東人の意見の酒豪であり、関西人の意見は反映されない。こうなると日本人の相違とは若干遠ざかってしまうのだ。


興味によるバイアス

選択肢をいくら用意しても、興味が無いことには回答しようがない。サッカーを見たことが無い人に「どのチームが好きですか?」と尋ねても、だいたい無回答になってしまい、さらにはランダムな回答すらされることがある。

これでは、ランダムに起因したノイズデータや、データ欠損が起こってしまう。

興味がある人だけ回答してくださいとすればうまくいくだろうか?そうではない。その場合はサッカーに興味がある人だけに調査対象が偏ってしまい、標本にバイアスがかかってしまう。


おわりに

データのノイズや欠損は、統計的手法をしばしば困難にする。

ディープラーニングやデータマイニングによる価値が注目されているが、そのためには品質高いデータが必要だということだ。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください