ポストコロナはSociety5.0の時代、データを活用した付加価値創造が焦点となる

Digitization Transformation Laptop  - geralt / Pixabay

株式会社Crosstab 代表取締役 漆畑充

Society 5.0 

Society 5.0とは第5期科学技術基本計画の中で提唱された概念で、

“サイバー空間とフィジカル空間(現実社会)が⾼度に融合した「超スマート社会」を未来の姿として共有し、その実現に向けた⼀連の取組”

内閣府資料 1https://www8.cao.go.jp/cstp/kihonkeikaku/5gaiyo.pdf

とされています。具体的な例として交通データを用いたモビリティサービスの高度化、医療データを活用した個人の健康促進や予防医療への応用などです。その他にも食品や農業など様々な分野での取組が期待されています。特にこれまでの情報化社会(Society 4.0)との違いとしてサイバー空間とフィジカル空間がシームレスに結合され、AIやデータ活用を元に新たな価値を創造するという点が強調されています。

本コンセプトの初出は2016年ですが、間違いなくポストコロナの時代のDXの一つの道標となることが予想されます。従って当然データサイエンスの立場からもこれらの動きを無視する事はできません。そこで本稿では今までのデータサイエンスのあり方を振り返り、現状の問題点と、そしてSociety 5.0を意識した今後のあるべき姿について弊社の見解を述べて行きたいと思います。

2010年代 ビジネスにおけるデータサイエンスの萌芽

2010年代前半頃よりwebサービス企業を中心にビッグデータを呼び水としてデータサイエンスブームが起こりました3データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ ディミトリ マークス (著), ポール ブラウン (著), 馬渕 邦美 (監修) は日本にデータ・サイエンティストという言葉を広く知らしめた書籍であり、2013年3月4日に発売されている。4「Data Scientist: The Sexiest Job of the 21st Century」Harvard Business Review  https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century データサイエンティストを21世紀、最もセクシーな職業と評した有名なこの記事は2012年10月に公開された。。企業が自社のデータを蓄積し、データサイエンティストと呼ばれる専門人材を用いてそれらを分析させ自社の事業に活用するという取組が当たり前のように行われるような時代になったのです。これより前から金融機関や事業会社のマーケティング部門などでも似たような取組は行われていましたが、あくまでリスク管理やCRMといったある部門・機能に限定的な動きであり、扱うデータも少量でした。対してこの流行下でのデータ関連プロジェクトの特徴はCXOからのトップダウン方式である、webログをはじめとして非常に大きいデータを扱うなど、様々な意味で従来のものとは規模もスケールも異なるものでした。

このブームの初期、各企業は人材採用とデータストレージへの投資に注力しました。データサイエンティスト自体が新しい職種であったため、経験者は無論のこと適正者も希少という状態でしたので、人材市場での候補者の価値は高くなりがちでした。現在でも続くデータサイエンティストが高給という印象はこの時代の人材事情が影響していると思われます。

この頃のストーレジはクラウドではなくオンプレミスのカラム指向型(従来のRDBは行指向型)が主流でした。ほぼ同時期にhadoopディストリビュータが表れこちらはwebログのトランザクションのようなデータの保管として使われるようになります。

それらから程なくしてデータサイエンティストとは異なる機械学習エンジニアという職種が台頭してきます。前者はコンサルティングやビジネススキルに強みを持ち、後者は実装力を含めた従来のITエンジニアに近いスキルを持っているとされています。同時に機械学習やデータサイエンスに係る技術の高度化が進みます。kaggleと言われる分析コンペティションのプラットフォームがそれに拍車をかけました。また機械学習の領域では深層学習におけるブレイクスルーが置き、第4次AIブームが到来しました。2010年代中盤にはクラウドストレージが主役となり、企業は高額な初期費用や保守費用の負担をすることなく、従量課金でサービスを利用できるようになりました。

ビジネスにおけるデータサイエンスの黎明期は人材とそれを実現する技術の高度化に焦点が当てられたと言えます。

次の時代への課題

データやAIの活用に積極的でありかつ、成功している企業の代表例はGAFAやNetflixのようなデジタルプラットフォーマーであることに異論はないはずです。彼らは(Appleを除けば)生まれながらのデータドリブン企業と言えます。何故ならば創業時より自社でデータを収集し、それらを活用したサービスを提供しているから、もう少し具体的に言えばバリューチェーンの中にデータ収集→加工→AI・機械学習モデル構築→付加価値創造→サービスに還元というデータチェーン5データサプライチェーンとも言うようです。https://hbr.org/2021/06/data-management-is-a-supply-chain-problemが元より組み込まれているからです。またここ10年ぐらいの間に創業したIT系スタートアップの多くも始めからデータを収集、活用する出口戦略ありきでプロダクトを開発しており、これらも生まれながらのデータドリブン企業と言えます。このような企業はデータやAIの活用成果と事業存続に強い相関があるという特徴を持ちます。

一方で我が国の伝統的な企業はどうでしょうか?以下の図表1を見てみますと、およそ約4割はデータの利活用ができていない、また全体の約2/3はそのビジネスへの成果を得ていないと回答しています。加えてこの調査対象者はITユーザ企業とのことですので、一般のレガシーな企業を対象とした場合もっと悲観的な結果になった可能性もあります。前述したITメガベンチャーと異なり、彼らのビジネスモデルはそもそもバリューチェーンの中にデータチェーンを要するものではありません。そのためデータやAIの活用が遅れたり、その活用成果が得られていなくても急に業績が悪くなったりすることはありません(ゆでガエルになる可能性があります)。ある意味既存バリューチェーンが頑健であるため、あえてデータやAIの活用をしなくとも短期的には困らないという状況が活用を遅らせ、またその頑健さゆえデータバリューチェーンの入り込む要素がないため、R&Dや経営企画内の取組に終始してしまいデータ活用が表面的になりその成果が得られていないのではないかという懸念があります。例えばBIツールを導入し売上を可視化する仕組みを作ったとしても、それを見て情報を得て付加価値を創造するという工程が業務プロセスに無ければそれは無用の長物です。一時期多くの企業の受付にペッパー君が置かれていた時期がありましたが、一時的な珍しさで注目されただけで次々と姿を消したのと同じです。

[図表1]

出典:ガートナー (ITデマンド・リサーチ)/調査:2018年11月6ガートナージャパン株式会社プレスリリース https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20190527

ビジネスにおけるデータサイエンスの黎明期は、データサイエンティストや機械学習エンジニアのような人材とクラウドや深層学習のようなテクノロジー、つまり「どのように実行するか」という観点に重きを置かれてきました。しかし前述したように我が国の多くの企業がその成果について十分な説明ができているかというと疑問です。筆者はこれをポストコロナの時代への課題と捉え、データチェーンとバリューチェーンの巧みな連続的かつ持続的な連携から付加価値を創造する仕組みを作る、そのために「何をするのか」ということに焦点を当てる必要があるのではないかと考えます。

我々が考えるバリューチェーンとデータチェーンの連携

バリューチェーンは経営学者マイケルポーターにより導入された概念であり、

企業が製品を設計、生産、販売、配送、サポートするために遂行する活動の集合

ジョアン・マグレッタ (著), 櫻井祐子 (著), 櫻井 祐子 (翻訳) . (2012). 〔エッセンシャル版〕マイケル・ポーターの競争戦略. 早川書房.

とされます。我々が考えるバリューチェーンとデータチェーンの連携とは、それら活動の諸々から発生するデータを収集、加工し、そこから付加価値を創造し風上・風下の活動に還元するような連鎖(チェーン)です。

[図表2 バリューチェーン]

既存の頑健な価値連鎖の中にこの仕組みを作るのは容易ではありません。例えば部署間でのセクショナリズムがデータ連携を躊躇させることもあるかもしれません。また収集したデータの管理や質の維持を行うガバナンスの問題もあります。2010年代に登場したDMP7DMP:Data Management Platformはこのようなデータマネジメントの問題の幾らかには有効でした。しかし付加価値創造とそのバリューチェーンへの還元という観点からは依然として課題が残ります。ポストコロナの時代はこれらをクリアするデータチェーンの設計が大きなテーマになると考えます。

Society 5.0 との関連

冒頭で述べたように、Society 5.0はサイバー空間とフィジカル空間が”高度に融合”し、データやAIで生み出した価値をユーザに提供するような世界を提唱しています。”高度に融合”するためには、先ほど述べたバリューチェーンとデータチェーンの高度でかつ連続的な連携が不可欠であるというのが弊社の意見です。例えばモビリティサービスではただ外部のジオグラフィックデータや個々の移動データを集めたデータベースを作るだけでは不足で、それをサービスのバリューチェーンごとに適した形にAIや機械学習で加工して組みこむことが必要です。

今まではサービスとしてどう提供するのかという観点がやや欠けていましたが、ポストコロナの時代は改めて付加価値の創造を意識したデータサイエンスの取組が期待されます。

弊社は分析受託だけではなく、上記を実現するデータビジネス開発支援コンサルティングもご提供しております。

【顧問データサイエンティスト】前処理/外れ値などデータサイエンス技術のアドバイザリーサービスの提供

「調べものって面倒だな・・・」
「そもそもどう調べればいいの?」
仕事をすすめる中でこんなんこと思ったことはありませんか?

特にデータサイエンティスト分野は体系化された書籍がなく、
「分からないこと」で常にプレッシャーを感じながら仕事を進めていると思います。

そこでもし、すぐに質問ができ的確な回答でリードしてくれる存在が近くにいたら頼もしいすよね。

株式会社Crosstabはそんな頼れる存在になれるようデータサイエンスの技術的アドバイザリーサービスを提供しています。
このサービスは弊社を顧問データサイエンティストとして契約していただき、困ったときの相談窓口として利用していただくサービスです。

顧問データサイエンティストの頼もしさにご満足いただけることと思います。

顧問データサイエンティストのすすめ

↓このような不安やお悩みをお持ちではありませんか?

・「調べもの」に時間がかかってしまい長時間労働になっている
・実は統計学の知識に不安がある
・実は数学が苦手で数学的手法のアドバイスがほしい
・プロセス過程における相談役がほしい
・プロジェクトが行き詰まってしまっている
・専門書はたくさんあるのに的確な答えが見つからない
・経験が浅く分からないことだらけ。周りの人も忙しそうで訊くに訊けない。

これらの問題は「顧問データサイエンティスト」に相談してしまえばすぐに解決できます。
いちいち調べたり、本を探したり、悩んでいる時間は勿体ない!
プロに訊いてしまいましょう!

㈱Crosstabの代表はデータサイエンティス業務に15年以上携わっており、幅広い知識と経験から的確な答えをご提案することができます。

経営者、管理者、指導的立場に立つ場合の相談、実務担当者からの相談、どちらも対応可能です。

「顧問データサイエンティスト」がもたらす意外な効果

「顧問データサイエンティスト」を身近に置くことで、

・労働時間を削減できる
「調べる時間」「悩む時間」が削減することで労働時間の削減にもつながります。
空いた時間で他の業務に手を回したり、早く仕事を切り上げてプライベートを充実させたいですよね。
慢性的長時間労働による部署の疲弊も緩和されることが期待できます。

・プロジェクトの成功への近道
的確なアドバイスを受けられることで、プロジェクトを頓挫することなく成功させることができます。

・プレッシャーからの開放
技術的相談ができる相手がいることで仕事のプレッシャーから開放されます。
「仕事の進め方、本当にこれで大丈夫かな?」と休日も頭を悩ませることはありませんか?
自分で抱え込まずにまず相談してください。
必ず適切なアドバイスをご提供します。

サービス方式について

「データサイエンスアドバイザリーサービス」は月額方式タイムチャージ方式で提供しています。

顧問料など詳細はお問い合わせください。

株式会社Crosstabって何の会社?

株式会社Crosstabはデータサイエンスアドバイザリーサービスの他、クライアント様のデータ解析の受託、データ解析に基づくコンサルティング、そのほかデータサイエンティスト研修なども提供しています。
ソリューション事例はこちら、研修事例はこちら

about members

現在代表がすべての案件に携わっています。
代表が直接関わるため、担当者ごとの技術の差がなく、安心してご依頼いただけます。
ここで代表の経歴をご紹介いたします。


代表氏名 漆畑 充(うるしばた みつる)
・2005年慶應義塾大学理工学部卒業、2007年同大学院理工学研究科(数学専攻)修士課程修了。
・2007年株式会社金融エンジニアリング・グループ入社。
(金融機関向けデータ分析業務に従事。与信及びカードローンのマーケテイングに関する数理モデルを作成。)
・その後デジタル・アドバタイジング・コンソーシアム株式会社入社。
(アドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言、コンサルティング、プロジェクトマネジメント業務に携る。)
スキル:Python,SQL,R,SAS(SAS Base Programming取得),SPSS
・得意分野:金融工学、InsureTech、数理統計学
・書籍「現場のプロが伝える前処理技術」、「AI・データ分析モデルのレシピ」

広告業界にいたこともあり、ノリが良いキャラクターですが、仕事に関しては几帳面で完璧主義です。

さらに詳しい経歴はこちら。データサイエンス情報のブログはこちら

お問い合わせ

「顧問データサイエンティスト」サービスの提供により、業務の効率が上がり、本業の成功、従業員のメンタルヘルスケアの一助となれることを願っています。

困ったときの用心棒としてぜひ当サービスをご活用ください。

クロス集計を制するものはデータ分析を制する

Goal Start Up Growth Hacking Begin  - geralt / Pixabay

株式会社Crosstab 代表取締役 漆畑充

クロス集計はデータ分析の基本

弊社名「Crosstab」はクロス集計の英語名「cross tabulation」に由来します。単純ながら強力な手法であり、初期の段階で分析の方向性を定めるためや、データの加工の方法を検討したり、またモデル構築時に投入する変数を選択したりと様々な場所で有効です。このことよりクロス集計はデータ分析を行う上での基本中の基本と言っても過言ではありません。華やかなモデル構築ばかりに目がいきがちですが、弊社はこの基本を大事にするという思いからこの社名をつけました。

概要

クロス集計は図1-1のように2つの異なる変数それぞれのカテゴリを表頭表側に並べて、それぞれの変数のカテゴリの組合せごとに集計する方法です。英語では「Contingency table」とも言うようで、1904年にピアソンが言及1“On the Theory of Contingency and Its Relation to Association and Normal Correlation” https://archive.org/details/cu31924003064833/page/n15/mode/2up したのが始めと言われています。

一般的に、表頭に目的変数(例えばクリックしたか、コンバージョンしたかのフラグなど)表側に説明変数を配置します。これを逆にやると素人かなと思われたりします。実際に実務で知りたいのは説明変数のもとでの目的変数の分布であるので(つまりP(Y|X))、横合計で除した横%版を用いることが多いです(図1-2)。例えばXが性別でYがコンバージョンフラグとすれば横%は男性/女性のコンバージョン率です。これも慣れない人は逆(つまりP(X|Y)、縦で除した縦%)を計算してしまうのですが、これだとコンバージョンした人の男性割合が分かるだけで、男性はコンバージョンしやすいのかどうかというのは分かりません。

役割

クロス集計は主に連続変数で言うところの散布図のような役割、つまりXとYに相関があるのかどうかを見るために使います。また連続変数であっても適当な閾値でカテゴリ化してしまえば、他のカテゴリ変数と横並びで相関の度合を比較することができます。連続量の相関係数に相当するものとしてχ2乗統計量があります。細かい計算式の定義はここでは触れませんが、Excelで簡単に計算できます。他にも分割票の赤池情報量基準(AIC) 2https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t2_aic-cont.html に詳しいやBICなどの情報量基準なども相関の度合として計算できます。

その他にも欠損の処理や外れ値処理の方法を検討したり、表側をネストさせることで説明変数の2つの組合せと目的変数との相関も見ることができます。マーケティングなどで機械学習モデルを構築するために、意味がある解釈可能なセグメントを定義しておく場合にこれを行う場合があります。例えば性別年齢と家族構成で消費傾向が異なるセグメントを作成したりです。勘の良い方はお気付きかと思いますが、表側をネストさせていくとカテゴリの値で分岐した決定木と見なせます。

機械学習全盛期においてあえてクロス集計を推す理由

現在の機械学習モデルは自動で変数を選択したり、さらにAutoMLともなれば前処理までほぼ自動で行うものもあります。このような時代にクロス集計のようなレガシーな手法の重要性を説く理由は、それがローデータの情報を最大限維持しつつ、また視認可能な最適な単位だからです。データ分析の基本は丹念に自分の目でデータを一つ一つ確認することですが、当然数万件のデータをつぶさにとなれば困難です。そのかわりにその最適な単位を確認することでデータを俯瞰しようというのです。

データを俯瞰できていれば、ローデータの持つバイアスや加工・集計ミスのようなプログラムがエラーメッセージを出力しないクリティカルな見落としもすぐ気が付くようになります。例えばプロジェクトも中盤になると、レコードの件数などは覚えてしまうため、マージ処理などのミスはすぐに分かります。また打合せの最中に、上司やお客様から急に「例えば男性の場合の数値はどうなっているの?」という問にもすぐに答えられます。「ああこいつは、こんなことも知らずに分析してたのか」と思われ信頼をなくすということもありません。

クロス集計を制する者はデータ分析を制するというのはこのような理由からです。

最後に

弊社は多数の説明変数と目的変数のクロス集計表を作成し、変数の重要度(χ2乗統計量)を算出する自社のツールを保有しています。

是非データ分析でお困りごとございましたら、弊社までご相談ください。