∑考=人

そして今日も考える。

データ欠損は自分で補間してこそ意味がある

前回、ネットの評価がプラットフォームによって偏る、という旨について述べました。それは、意見が増大することで、そのプラットフォームの唯一解らしきものが確立され、反対意見を述べる人が減るから、と私は結論づけました。

 

実はこのようなデータの欠損を補正するための研究分野というものも存在します。現状として、サイレント・マジョリティの意見が表れてこないためにネットの意見が偏ってしまうので、何とか顕在化している評価から見えない評価を推定した上で、それも含めて正しく評価できないか、を考える学問です。

 

例えば、食べログというグルメサイトがありますよね。居酒屋の店をどこにしようか、旅行先の見知らぬ土地でどのお店を選ぼうか、という時に多くの人が利用しているんじゃないかと思います。皆の口コミが集まることで、比較的高い信頼性を実現している、と考えられているようです。

 

「ようです」という表現を使ったのは、まさにこういった口コミ型データベースもやはりデータの欠損を多く含んでいるからです。そもそも論として、一体誰がそのお店の評価をしているのか、ということは意識しておいた方が良いと思います。

 

少なくとも私の場合、訪れたお店が良かったからと言って、そのお店について食べログに☆の数による評価をつけることもなければ、そのお店について感想を述べたこともありません。ほとんどの人はお店を訪れるまでには食べログを利用しますが、お店を訪れた後に律儀に評価を下す人はかなりの少数派のはずです。

 

これはアマゾンの本のレビューなんかについても同じでしょう。ある本について500件も評価コメントがあると、それだけで信頼性が高い気がしてしまうものですが、その本がもし10万部以上売れているのであれば、たった0.5%の人の意見しかそこには含まれていないということになります。

 

意見であればまだ多様性が認められますが、☆の数による評価であれば、かなり極端な評価になることが予想されます。これはもちろん、食べログについても同じです。評価の一番高い店を選んだのにあんまり良いと感じなかった、という場合があるのはこのためです。「誰が評価しているのか?」「どのぐらいの割合(数ではない)の人が評価しているのか?」をきちんと確認する必要があります。

 

 上記で述べたのは、評価を下す人に比べて評価を下さない人の方が圧倒的に多いことによる評価の偏りです。これに対し、実は個人レベルでの評価の偏りというものも存在します。同じく食べログを例にすると、ユーザーによって「☆3つ以上の店ならば評価をつける人」や「☆4つ以上なら評価をつけない人」といった違いがあるからです。(実際に様々なプラットフォームで観測されている事象です。)

 

これも当然と言えば、当然です。「何かについて評価を下す」というのは結構面倒な作業ですからね。そして、評価を下すか下さないかの基準は人によってバラバラです。アナログな世界で考えても、好きな人に対して(☆4以上であれば)、たくさん褒める(実際に評価を下す)人もいるでしょうし、敢えて何も言わない(評価は下さない)人もいるでしょう。逆もまた然りで、嫌いな人に対しては(☆2以下であれば)、文句ばかり言う(実際に評価を下す)人もいれば、嫌いだから何にも言わない(評価は下さない)人もいるはずです。

 

 つまり、ネットの意見は、巨視的にも微視的にも偏っているわけです。逆に言うと、本当に正しい評価を下せる(本当の全体最適解を求める)こと自体に価値があると最近は言われています。データ欠損分析が研究されているのも、「正しい評価」そのものに需要があることを裏付けています。

 

でも、これは蛇足、徒労だと私は思っています(研究者には申し訳ありませんが)。そもそも論として、完全に評価の偏りを除去することは不可能です。大切なのは、どの部分が見えていないのかを個人個人が類推することであり、どうすれば、その部分を垣間見ることができるのかを考えることです。

 

もちろん、より公平な評価をつけること自体はできるようになるのかもしれませんし、それはそれで、今のランキングよりは当てになるのかもしれません。しかし、全体最適化された評価自体が個人レベルにとって正しいはずがないのです。つまり、他者のバイアスを除去した上で、次は自分寄りのバイアスをいかにしてかけるのか、ということまで考えなければならないわけです。他人がつけた評価はどこまで言っても他人がつけた評価です。自分と他者集団との違いを理解しない限り、データ欠損を埋めることはできないのです。