6月10日公開のレポートで紹介致しました、ひろしまサンドボックス推進協議会事務局が主催するデータ解析コンペが終了しました。
初めてのデータ分析コンペということもあり、苦戦することも多かったのですが、この経験を通じて学んだことについて、今回コンペに参加した筑波大学大学院の小川と慶應義塾大学の岸本の2名のインターンが紹介します。
今回のコンペのゴールは、2017年のプロ野球全公式戦の投球データから、投手が次に投げるであろう球種を予測するためのアルゴリズムを構築し、2018年と2019年のデータで、その精度を評価・検証するというものでした。主催者側から与えていただいたデータ、外部のオープンとなっているデータを組み合わせ、いかに正確な予測を行えるか、球種予測に対して有効な特徴量をいかに表現できるかが問われました。
今回のコンペでは、私たちが、つくばと湘南という離れた場所から作業を進めていたことや、お互いの大学、大学院での授業や研究、課題の合間を縫いながらアルゴリズムを構築したことなど大変な点も多かったですが、定期的にミーティングを行ったり、作業を分担することにより、2人で協力することで形にすることができました。そんな駆け抜けていく様に過ぎ去った約2ヶ月のコンペ期間でしたが、そこで学んだ4つのことについて紹介します。
1点目は、データの解釈の重要性です。
今回のコンペの目的は2018年と2019年のデータに対して精度が高くなるアルゴリズムの作成です。アルゴリズムの学習期間である2017年のデータに対してのみ当てはまりが良いアルゴリズムを作成しても何の意味もありません。私たちは与えられたデータが予測において持つ意味を整理・解釈すること、すなわち、現在あるデータ、与えられてはいないが必要となるであろうデータを整理することから始めました。そうすることにより、常にゴールを見据えながら作業を前進させることができました。目標や目的を据えることで間違ったベクトルに進まない、もし間違ってもすぐに軌道修正ができる客観的な視点を持つことはビジネスに通じる考え方であると考えています。
2点目は、情報収集能力の必要性です。
今回のコンペでは、主催者側に申請・共有することで外部のデータも使用できるルールでした。他の参加者がどのような特徴量を作っているかは分からないまでも、何のデータに注目しているかは把握できる状態でした。精度の高い予測を行うためには、他の参加者の申請データや、過去の他のコンペや研究の予測手法の調査など、外部の情報も積極的に収集することが必要であることを再認識しました。常に外にアンテナを張り、自分の知識をアップデートしていくことで最適な方法を選択できることを改めて痛感しました。ちなみに、自分達の予測では、気象データを取り入れることで、予測精度の向上を図る工夫をしてみました。
3点目は、基礎分析の重要性です。
今回のコンペは野球のコンペであり、野球に関する変数といったものがたくさんありました。そのため投手が球種を選択するにあたり、何が鍵となっているかを把握するために、さまざまな基礎分析を行いました。実際、基礎分析において私たちが球種選択との関係が深そうであると推測した変数は、機械学習における重要度とほとんど同じという結果になり、基礎分析でわかることは機械学習においても大きな意味合いを持つことを実感しました。基礎分析を入念に行うことによってその後に行う予測などで誤った方向へ進むことを防ぐこともできます。様々なデータが入手できてしまう今だからこそ、基礎分析によってデータの本質を見極めることが重要であると感じました。
4点目は、全体を捉えることの重要性です。
最終的な予測モデルを完成させるまでに、私たちは様々なモデルを作成したのですが、その中で、モデルに組み入れるべき情報が抜け落ちていると予測の精度が落ちてしまいます。ビジネスにおいても言われる「もれなくダブりなく」のように全体をまずは把握することによって、利用可能なデータの全体像をしっかりと俯瞰することがデータ分析にも必要であり、機械学習での問題点である過学習や学習不足なども防ぐことにつながります。
私たちは今回コンペに参加することによって野球の球種選択についてデータに基づいて予測するということを行いました。実際、スポーツ界でも野球をはじめ様々な競技でデータを活用するといったことが行われており、データの利用が当たり前の世の中になりつつあります。スポーツに限らず高次元のデータが膨大なサンプル数で取られていますが、1つ1つのデータを見ているだけでは意味を成しません。適切な解釈や加工があって、データははじめて価値ある情報へと変化します。ビッグデータ時代と言われるいまこそ、データの本質を見極めることが重要である、という今回のコンペを通じて得た学びを、これからの分析・解析にも活かしていきたいと思います。