2017.06.29 | ビッグデータ

今年も様々な話題や波紋を呼んだAKB48選抜総選挙。

先日ルグランでは、クチコミデータを使った分析から、各メンバーの得票数、およびその結果としての順位を予測・発表しました。

今回のブログではその注目の結果を、ルグラン予測の特徴である「得票数の予測」という観点から、検証・分析していきたいと思います。

2017年 AKB選抜総選挙結果


(薄字は予測を外したメンバー)

まずは結果から見ていきましょう。
上位4人に関しては、メンバーを当てることが出来ました。3.4位は順位も当てています。
選抜で見ると、16人中11人の顔ぶれを一致させることが出来ています。(上位20人中では14人。)

結果分析
予測と結果データの中から、
「選抜入り(16位以内)と予測したが、実際には選抜入りを逃したメンバー」

「予測では選抜圏外とされていたが、実際には選抜入りしたメンバー」を抜き出してみます。
これを見ると、いくつかのことがわかります。

まず、「選抜入りと予測したが、実際には選抜入りを逃したメンバー」を見ると、得票数の予測と実際の結果が大きく離れてしまっています。

注目すべきはその所属グループで、全員が本店メンバー。本店・支店毎にモデルを作るという今回の試みですが、それが裏目に出てしまったメンバーと言えます。

プレスリリースなどでもお伝えした通り、今回の本店メンバーの予測には過去の分析で有用性が高いと見られていた2ちゃんねるのクチコミデータを特に重視して予測モデルを作成しています。しかし、今年の得票数を予測するためにインプットした2ちゃんねるでの書込数には、(なんらかの理由で)直接的には人気とは関係のない書き込み(いわゆるノイズ)が多く含まれていたため、こうしたメンバーについては得票数を過大に予測してしまい、実際の投票結果との間に大きなズレが生じてしまったと考えられます。

次に「予測では選抜圏外とされていたが、実際には選抜入りしたメンバー」についても見ていきましょう。

5人中4人に順位で見ると10位以上のズレがあります。しかし惣田さんを除いて、「予測得票数」を見てみるとそこまで大きな乖離はありませんでした。

つまり、ここに名前が挙がっていないHKT48を含め、支店メンバーの得票数を予測するモデルに関しては得票数を予測するという観点では良いモデルができており、前述の通り特定のノイズが入って得票数を過大に予測してしまったメンバーを取り除くことが出来ていれば、順位の予測もより正確なものになっていたと考えられます。

また、総クチコミデータを見ると、AKB全体についてわかることがあります。それは「ライト層の増加」です。

上位16人を見ると、得票数は昨年の1,125,300票 → 今年は1,172,736票と4.2%の増加であったのに対し、同じく上位16人の総クチコミ数は713,103件→ 878,847件と、23.2%も増加しています。

クチコミ数を世間の注目度と捉えれば、AKBのメンバーあるいは選抜総選挙への注目度、つまりファンの裾野は広がっているが、一方でこうした人たちは、一人で何十枚もCDを買って投票するといったことはしない、いわゆる「ライト層」が中心であるため、注目度の増加がそのまま得票数の増加には繋がらなかったのではないか、とも考えることが出来ます。

クチコミデータの活用について
今回の総選挙予測でも、ルグランでは、過去のデータも含めて誰でも容易に入手できるクチコミデータを活用することにこだわって予測や分析を行ってきました。

クチコミデータとは人々の日々の思考や感情が投影されたものであり、一つひとつの書き込みには、人々の様々な思いが込められています。こうしたデータを使って、例えば、今回の選抜総選挙での人々との投票行動を予測するためには、このクチコミデータを目的や用途に応じてポジ・ネガ別、男女や年齢別など、適切な切り口から分析・検証をしなければ精度の高い結果を得ることはできません。

今回の予測でいえば、「2ちゃんねる」における書込の意図や背景をより丁寧に分類することで、例えば、過去に炎上した経験のあるメンバーなどに関するデータの取扱を工夫するといったことで、より精度の高い予測ができた可能性もあり、こうした知見・ノウハウはまた来年以降の予測にも反映させたいと思います。

一方で、HKT48のモデルに関しては、支店別にモデルを構築するという大方針のもと、ブログについては「ポジティブ」な内容と思われる書込だけを抽出することで、精度の高いモデルを作成することが出来ました。

クチコミデータに限らず多くのビッグデータ解析においては、様々な試行錯誤を繰り返しながらいかにして「意味のあるデータ」を抽出し、予測や分析モデルを構築できるかが大きなポイントとなります。クチコミデータの活用範囲も年々広がっており、小売業の売上や株価、さらには伝染病の感染確率といった予測にも用いられるようになっています。

ルグランでは、クチコミデータはもちろん、ウェブのアクセス解析データ、広告の配信・運用データ、コンテンツサイトの閲覧状況、顧客リストや購入・取引データなどのCRMデータ等、数多くのデータを分析・解析することで、お客様にとって、より効果的なマーケティング戦略の立案・実施につなげるお手伝いをしています。

今回の選抜総選挙予測を通して得られた知見や教訓は、弊社分析チーム内での共有し、今後のデータの分析・解析にもつなげていきたいと思います。



Back to Blog Top