ミッションの違いからデータサイエンティストを機械学習エンジニアとデータ・アナリストに分類し、今のデータサイエンティストの多くが前者であり後者は少数派であると論じました。今回はミッションの違いではなく「プロ/アマ」という切り口からデータサイエンティストを解説して行きます。
お詫び)次回はデータ・アナリストという少数派は如何に仕事をしていくかを今回お話しますと書いたのですが、一旦別の切り口からデータサイエンティストを再考するために予告とは異なっています。
きっかけは前回の記事を自分で書いてみて、内省的にこのブログのテーマも前回論じた内容に即したものが適切じゃないかと考え「about」で記載した内容を改定した事です。(具体的にはデータサイエンティスト向けの内容から広くビジネスとデータ活用に携わる人向けに変えた。また時間的に前後しますが技術系の内容に関しては姉妹サイト「学ぶ data scientist」に統一、タイトルも変えたかったのですがドメイン名とリンクしているためあえてそのままにしています。)旧テーマは新テーマに包含される内容でありプロ/アマ論に適切と思われる内容であったため、それ自体を独立した記事として抜き出したのが本記事です。
決して手抜きではありません。一部打ち消し線は以前自分で書いたものを自分で修正している箇所です。
プロのデータサイエンティスト
プロのデータサイエンティストとは何でしょうか?簡単に言えばその人の時間あたりの所得(*1)が大きい、または時間あたりに生みだす付加価値の大きい人です。禅問答のようなのですがこれが一番良い定義だと思います。所得が大きいのはその仕事の付加価値が大きいからです。これは雇われ、フリーランス問わずそうです。
上記打ち消し線は現実では必ずしもそうではないというのがあるからです。例えば元々給与水準が高い企業ではデータサイエンティストとしての評価とは関係ない部分があるからです。そしてこの定義は給料を貰っているアマチュアデータサイエンティストがいる事と矛盾しません(実業団の野球選手は給料を貰って野球をするアマチュアであることと類似しています)
一方この定義は禅問答あるため実用的ではありません。そのため逆にアマチュアに特徴的な行動を以下に自戒を込めて列挙し、そうならない事を目指します。
アマチュアっぽい行動
勉強やスキルの目的化
データサイエンティスト協会では以下の様にデータサイエンティストを定義しています。
「データサイエンティストとは、データサイエンス力、データエンジニアリング力を ベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」
ここでいう「ビジネス」とは、社会に役に立つ意味のある活動全般を指します。また、 「プロフェッショナル」とは、体系的にトレーニングされた専門性を持つスキルを持ち、 それをベースに顧客(お客様、クライアント)にコミットした価値を提供し、その結果 に対して認識された価値の対価として報酬を得る人を示します。
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
以上の定義は私の定義と必要十分に対応していると思います。一方で彼らはそれをなすためのスキルセットとして
を公開していますが、膨大な量です。これは目的である「価値提供」をなすための手段であるのですが、多くの方はこの手段を目的化し、お勉強ばかりしているデータサイエンティストになってしまうのです。100冊の本より1つのプロジェクトの経験の方が大事です。貴重な時間をいつ使うか分からない知識の習得に当ててしまうのは無駄です。
原因と対策
- 経営陣やマネージャーが課題感もなく取りあえずデータサイエンティストという職種を作ってしまう。課題がない状況で何か仕事(らしいもの?)をしようとすると何が必要かわからず網羅的に全てのスキルに手を出そうとしてしまう。課題とスキルはone to oneであるため課題ドリブンにすること。
- 一部の自称データサイエンティストが勝手にスキルセットを作りそれがかなりオーバースペックであるため、それを鵜呑みにした人が勉強マンになってしまう。はっきりいってこのように非常に高いスキルセットを要求する人はこうする事でわざと参入障壁を高めているだけです。要するにポジショントークをしているだけです。(私もポジショントークをしていますが公言しているだけマシです)結論から言えば理系の大学院を出ていなくても「PRML」とか「緑本」とか読んだ事がなくても別に問題ないです。但し必要な時に関連文献を読む基礎力は必要です。間違ったスキルセットを鵜呑みにしない事。
ビジネスコミュニュケーション能力はなくても良いと思っている
学生に多い勘違いなのですが、データサイエンティストは一日中黒い画面に向かっている仕事と思われる事もあるそうです。実際は分析結果はビジネスにデプロイされなければ意味が有りませんし、優れたモデルができたから使って下さいといっても人は動きません。
この手のタイプは多くがビジネスにも興味がありませんそのため、業界独特の暗黙知をしらないためそれをモデルに組み込めなかったり、統計的に有意である事とビジネスとして有意である事(例えばランディングページを変更するとコンバージョン率が統計的に有意に0.01%高くなるという結果がランディングページを変更するという意思決定に繋がるであろうか?)の違いが分からない。
このようにコミュニュケーション能力の欠如は折角の分析結果をビジネスに還元する事が出来ず結果無用の長物としてしまいます。
原因と対策
- この原因は本人の資質に起因する事もありますが意外なことにそれを容認する雇用側にも問題があります。未だデータサイエンティストはTech職であるという認識が強い企業でよりその傾向が顕著です。雇用主やマネージャーはデータサイエンティストに対しビジネスへのコミットを要請する等コミュニュケーションを引き出す工夫やまたそのコミットへの度合いを評価する態度が必要です。
- 本人のマインドセットを変えていく事。機械学習の知識やプログラミングスキルはコミュニュケーションをしなくて良い言い訳にはならない事を理解する事です。
プロ/アマの心構えの違い
実はお金に拘ることができるか否かがプロとアマチュアの違いなのです。お金を稼ごうとすれば必ずそれに応じた働きを要求されます。アマチュア草野球で凡退しようとも誰からも責められませんが、プロ野球選手は自分の成績としてそれが給与に反映されます。高い年俸をもらう一方でチームの為に働くことを要求されているからです。
データサイエンティストの世界でも同じでお金を頂くからプロとしての職務を遂行することを要求されます。学生や趣味で分析する人と異なり納期や質全てにおいて顧客の要望に応えていかなければなりません。つまりお金に拘るということは結果として自身への仕事の遂行に拘ることになるのです。