8月度定例会は、「データサイエンティストになってみよう」というテーマで、山森直樹会員にご講演いただきました。 今回もZOOMによるオンライン開催となり、70名を超える参加者が集まりました。
山森会員は、情報工学を専門とし、研究所の企画部門に所属している企業内診断士です。
事前に参加者に配布された演習問題をつかって、鉛筆を手に問題を解きながら、データ分析のプロセスや考え方を理解するという内容でした。具体的かつ丁寧に構成された問題と座学と組み合わせることで、データサイエンティストになったつもりで、その思考過程を体験することができました。
■データサイエンティストとは
一般社団法人データサイエンティスト協会の定義するスキルセットや、データサイエンティストに期待される役割をご説明いただきました。データサイエンティストには、データサイエンス力、データエンジニアリング力、そしてビジネス力の3つが必要と言われています。
データを手にしたときに、解くべき課題とその背景を理解したうえで、どんなビジネス課題があるかを考える力こそが大切で、データを使ってビジネス課題の答えを導くというプロセスは、中小企業診断士の活動そのものともいえるという紹介がありました。
■データサイエンティスト体験: 機械学習の考え方
ポテトチップスの値段と売上個数の関係性を考える演習を行いました。与えられたデータから規則性を見出し、その規則性にあてはめることで推定するという演習です。この場合、120円の場合は規則性から400個前後ということが容易に予測できますが、80円の場合には、データが十分でないため、予測することが難しいというご説明をいただきました。
■データサイエンティスト体験: 回帰
与えられた世帯収入と、その世帯の食費や家族人数などのデータから、そのデータには含まれない世帯の世帯収入を予測するという演習でした。
1.お題確認
予測の対象は何か、説明変数(目的を予測するためのデータ)は何かを確認します。
ここでは、予測の対象は世帯収入。 説明変数は、食費や教育費、所有携帯電話数などのデータとなります。
2.データを観察
各変数の大きい数値や小さい数値、欠損やイレギュラーをチェックします。
そしてイレギュラーと判断されたデータは予測に使わないようにします。たとえば、所有携帯電話数が200台、年齢が148歳といった数値をみつけた場合、それが適切なデータかどうか判断が必要です。適切に判断するには、お題の背景や課題を理解することと、そのドメインの専門知識が重要となることをご説明いただきました。
3.性質・関係性の把握
行方向でデータを見ることで、予測対象(世帯収入)に関係のある変数を探します。この例では、世帯収入と食費に関係がありそうなことを、散布図から見出すことができました。
4.予測
規則性が見つかれば、その規則に当てはめることで予測をすることができます。ここでは線形回帰モデルを使って予測できることを丁寧にご説明いただきました。
■データサイエンティスト体験: 判別
この事例では、年齢や趣味、性別、健康食品の購入頻度などの変数から、プレミアムビールの購入の有無を判別予測するという演習を行いました。
こちらのケースでは、前問とは異なる決定木の分析モデルに当てはめることで、複数の条件をIf -then のルールに置き換えて、順次判断していくという体験を行いました。
■まとめ
今回の演習は、適切なモデルを選択することできれいな答えを導くことができるようにご用意いただいたものでしたが、実際のデータではそこまでうまくいかないことも多いと思います。それでも、「データサイエンティストがどういう思考過程で、仮説を立てて答えを示すかを多くの人に理解していただきたかった。 AIやITに直接関係性の少ない人にとっても、その考え方は役に立つのではないか、」と山森会員は解説されました。