2016年11月11日

ビッグデータの誤解

今回の米国大統領選挙絡みで色々気になった事の一つ、「ビッグデータ」の誤解。日本同様、出口調査や事前の取材などで選挙の動向を判断して、それに応じて選挙前の予想や当日の開票状況と比較しながら、当選確定予報を出すのは日本と同様。ただ、日本の場合よりもより細かなメッシュで区分してそれぞれの趨勢を出すので、最終的な結果を判断するのは凄く分かりやすい。今回の選挙も、都市部では青色で埋まるのに、その周辺は全部赤なんて言うのは、凄く分かりやすい傾向でした。

で、今回米国の報道各社の事前予想では、クリントン氏が殆どのメディア(50社?)で優勢を打ち出していて、トランプ氏優勢を言っていたのは僅か2社。で開票作業が始まると、どんどんとランプ有利な状況が明らかになり、メディア(私が見ていたのはCNNでしたが)が段々慌ててくるのが、よく分かりました。選挙後、その混乱の原因を解析するメディアが言っていたのが、誰もトランプ支持を言わないのに実際は支持者が多かったと恨み節。「誰も恥ずかしくてトランプ支持とは言えないけれど、内心では応援していた」という説明を見て、申し訳ないけれど笑ってしまった。今回駆使されたであろう「ビッグデータ」が、間違った傾向を判断したのも、その参考にすべきデータ群には偏った情報しか含まれなかったのに、それが全体のデータだと思ってデータマイニングすれば、当然そう言う結果になりますよね。

個人的に想像するに、メディア側の間違いが二つあったと思うんですよね。一つ目は、その参考にするべきビッグデータの検証を行わなかったこと。仮に、そのデータが殆どトランプ支持であったなら、多分彼らはそのベースデータの信頼性に関して疑問を感じて検証したと思うんですよね。何か特異な操作が行われたのでは無いかと思って。本来は、そのデータの信憑性をちゃんと担保しないと行けないけれど、そこに有るデータの内容が自分達の欲している結論に近いものである事で多分安心して信用してしまったのでは無いかと。

もう一つの間違いは、例えば出口調査をしたり、事前に支援者のインタビュー等をして事前情報を集める場合、多分これまでと同じ方法で同じように調査・取材して満足してしまった事では無いかと。今回のトランプ旋風、最初に共和党候補として登場した時には、最初に消える泡沫候補だと思われていたのに、何故かいつまでも消えずにずっと残っている。時々、何がトランプ氏を支えているのかという記事を見かけたものの、本当の理由に至る記事を見た事が無かったのは、やはり単にトランプ氏の過激な言動に乗っかっている有権者が多いだけ、見たいな安易な想像を勝手に結論図家手板からでは。メディアなら、何故違うのかというところに疑問を持って、納得のいく理由なり原因がはっきりするまで取材するべきだったけれど、多分それを怠った。というか、これまでの「常識」を当てはめてしまったのでは無いだろうか。結果的に、それによって自分の思うような予想が出てくれば、それが正しいと感じるし、これまでとは異なる傾向が最初からずっと起こっていたけれど、それは誤差の範囲でいつか消えると勝手に期待していて、それが最後まで正しいと美しい誤解を続けていた事が、多分今回のメディアとしての敗北の理由ではないかと。

「ビッグデータ」は、確かに最近の情報社会では有益な情報源で有り、上手く利用すればこれまでに無い利益も得られるんですが、最近ではビッグデータを使う事で満足してしまい、本当にそのデータの適合性というか信頼性に関しては余り考えない事が多いように感じますね。例えば「食べログ」なんかでお店検索しても、そこに幾ら多くのデータが集められていても、食事やお店の嗜好の異なる人のデーターが混在している状態では、そこから得られた情報が自分に合ったものかどうか甚だ疑問。だから、どんなお店があるのかとか、どんな場所にお店があるのかという参考情報としては便利だと思うけれど、「自分の好みかどうか」という判断には使えない。それと同じ事が、今回の選挙に関してのビッグデータにも内在していたんでしょうね。少なくとも、共和党代表として地域の選挙を勝ち取ってきた事が、偶然だったとは思えないわけで、その結果とビッグデータの結論に仮に乖離が発生していたなら、やはりそこに疑問を持たないと「メディア」とか「ジャーナリスト」とは言えないでしょう。単にデータの後追いだけで記事を書いていた人が多かったんだろうなぁ。

そう言う意味で、後から色々と読み直してみると、今回の選挙戦はなかなか興味深いプロセスだったと思います。

0 件のコメント:

コメントを投稿