最近、ビジネス雑誌等で、「ビッグデータ」や「データサイエンティスト」という言葉をよく見かけるようになり、しばしば特集が組まれたりしています。簡単に言えば、コンビニ店などで収集している何百万人もの顧客情報データなどをビッグデータと呼び、それを分析しマーケティングに生かそうとすることです。さらに、このようなデータ分析を行う人をデータサイエンティストと呼びます。雑誌の記事によると、このような人材は日本では1000人ほどしか居ないため、この職業は次の十年で最もセクシーな(魅力的な)職業になると言われています。
私は学部演習で、計量経済学を使って現実の経済分析をしています。今から10年ほど前、ゼミ生のM君が、自分がバイトしているピザ宅配店の顧客に関する卒論を書きたいと相談に来ました。データは何を使うのかと聞くと、そのピザ宅配店の本部と掛け合い、その支店の顧客データを使わせてくれるとのことでした。ところが、数週間後、彼が研究室を訪ねて来て、分析がまったく上手くいかないというのです。尋ねたところ、その宅配店が配布するチラシの効果を計測するため、2万件の顧客データ(注文日時、注文金額、電話番号、注文回数などから構成)に回帰分析を適用したところ、まったくデタラメな結果しか出ない、と言うのです。私にとってもこのようなビッグデータの分析は初めてでした。気が付いたことは、この様なデータは多くのノイズである雑多な情報も多く含んでおり、そこから必要なデータを改めて取り出す必要があるということでした。そこで彼は、支店から500メートル間隔で同心円を描き、顧客の住所を使い、2万件の顧客を各同心円地域に分類しました。さらに10の同心円地域から、それぞれ100個の顧客を無作為抽出して、サンプル数1000個の標本を作りました。この標本に、注文回数を被説明変数とし、さらにチラシの各地域のカバー率(世帯数でチラシ数を割ったもの)を重要な説明変数として回帰分析を適用したところ、「チラシカバー率が高いほど注文回数も高くなる。」という統計的に有意な結果を得ることができました。このことは、宅配ピザチラシの配布効果があるということを示しています。
この実証経験から言えることは、ビッグデータを分析する場合には、かなり用心深く行う必要があることです。巨大なデータのためにあまりにも多くのノイズを持つため、簡単に「見せかけの関係」を「真の関係」と見なしてしまいます。このような事態に陥らないために、統計分析法をしっかり学習する必要があります。さらにデータサイエンティストになるためには、統計分析だけでなく、ファイナンス理論やマーケティング理論の学習も必要となります。これらの科目はすべて経済学部の講義で受講可能です。多くの経済学部学生は私立文系型の受験で入学するため、統計分析などを敬遠する傾向があります。最近は、計量分析ソフトが急速に進歩し、ほとんど数学的な知識なしに、ビジュアルに直観的に理解することが可能になりました。多くの経済学部生が、先入観にとらわれることなく、データサイエンティストにチャレンジすることを願ってやみません。