Marketing Mix Modeling (MMM) 動向 2022年版

Zoom Remote Meeting Virtual  - mohamed_hassan / Pixabay

MMM概要

MMMはマーケティング、特に広告の費用対効果を定量化し、予算最適を行う手法の総称とされています。具体的にはメディアごとの売上貢献度やReturn On Investment (ROI)を算出します。そそれにもとづいて最適な広告戦略を与えます。1https://www.gartner.com/en/information-technology/glossary/marketing-mix-modeling

左図:広告寄与度合 右図:広告予算の最適化

MMMは成果に影響を与える様々な要素を変数とした統計モデルとして実装されます。

分析には下記のような形式のデータが必要です。担当広告代理店が複数にわたる場合はチャネルごとにデータが散在している場合があります。なるべく広告主が主導で出稿データを整理することが望ましいです。

クッキーによる計測が不要なためクッキーレス時代を迎えるにあたって注目されています。

MMM ソリューション動向

主にツールベンダーや調査会社が主なプレイヤーです。

分類 サービス名・提供元 URL
海外MASS Analyticshttps://mass-analytics.com/marketing-mix-modeling-services/
Maximushttps://www.sapience.ae/marketing-mix-modeling-tool/ 
Nilesenhttps://global.nielsen.com/solutions/marketing-optimization/marketing-mix-modeling/
Optminehttps://optimine.com/marketing-mix-modeling/
market sciencehttps://market.science/
mu-sigma コンサルティング提供https://www.mu-sigma.com/our-musings/infographics/marketing-mix-modeling
Proof Analytics Proof BusinessGPS™ Saas提供https://www.proofanalytics.ai/
market theoryhttps://markettheory.ai/
dataigesthttps://dataigest.com/solutions/marketing-mix-modeling/
国内ADVA マゼラン サイカ https://mass-analytics.com/marketing-mix-modeling-services/
GfK Marketing Mix Modeling & Media Mix Optimizer GFK https://www.gfk.com/ja/products/gfk-marketing-mix-modeling
ニールセン・マーケティング・ミックス・モデリングhttps://www.nielsen.com/jp/ja/solutions/marketing-effectiveness/marketing-mix-modeling/
XYhai(サイハイ)セプテーニhttps://www.septeni-holdings.co.jp/news/release/2021/12013117.html
Automated MMMとして公開されているMeta Robynhttps://facebookexperimental.github.io/Robyn/
google lightweighMMM (google 非公式とのこと)https://github.com/google/lightweight_mmm
手動Excel で頑張るhttps://medium.com/@marketingmixmodeling/how-to-marketing-mix-modeling-mmm-with-excel-full-guide-96d39d47afe6

広告代理店のセプテーニ社がMMMソリューションの提供を開始するなど、代理店独自でのサービス提供の動きもみられます。6https://www.septeni-holdings.co.jp/news/release/2021/12013117.html

さらにOSSとしてmeta(facebook)からRobyn、Googleからlight weightMMMが公開されました。Robynの実践方法については弊社管理のブログ https://data-scientist-kasegu.com/2022/03/16/%e3%83%9e%e3%83%bc%e3%82%b1%e3%82%bf%e3%83%bc%e3%81%ae%e3%81%9f%e3%82%81%e3%81%aerobyn%e3%82%92%e7%94%a8%e3%81%84%e3%81%9f%e8%87%aa%e5%8b%95marketing-mix-modeling-mmm/ をご参照ください。

MMM今後のシナリオ予測

MMMの実行ハードルはより低いものに、ソリューションベンダーは自社広告代理事業への参入、広告代理店はOSSを使用した独自ソリューションで迎え撃つか?

  • MMMツールのみならず広告出稿も同時に行うベンダーの登場
    • 成果報酬型広告出稿サービス ADVA Buyer https://adva.xica.net/buyer/
    • TV広告運用型サービス ノバセル https://www.novasell.com/
  • 代理店主導でのMMMと出稿代理事業
    • セプテーニ XYhai
  • 中小事業者向けの広告代理事業サービスへの利用?
    • EC出店者に対して広告効果を元に広告費用をつけ払いするなど。

クッキーレス時代を迎えるに当たり、MMMが再燃してくるのではないかと思われます。さらにMMMソリューション単独での提供ではなく、広告出稿やその他需要予測などと合わせての価値提案が要求される時代にになると予想できます。

MMMに関してのご相談は弊社まで何卒宜しくお願い致します。

各社データプラットフォーム(データ基盤)ソリューションのまとめ (2022年版)

App Platform Technology Service  - geralt / Pixabay

株式会社Crosstab 代表取締役 漆畑 充

2010年代の前半頃からweb広告業界を中心に DMP(データ・マネジメント・プラットフォーム) という、 クッキーベースのオーディエンスデータを管理するプラットフォーム が流行しました。しばらくしてそれらのデータだけではなく顧客の購買情報や属性情報などの1stパーティデータもその管理対象とするものが現れます。クッキーレス時代を迎えるに当たって、特にDMPとの違いを強調するためにデータプラットフォーム(データ基盤)と呼ぶことが多いようです。進化の過程で名前から単語が一つ抜け落ちるという珍しい例です。この中でも特に顧客データに特化しているものをCDP(カスタマー・データ・プラットフォーム)と呼ぶようです。

データ基盤ソリューションを提供する事業者は主に専業事業者とクラウドサービス事業者に分けられます。前者はデータ基盤そのものをオールインワンで提供しており、後者は基盤構築を可能にするクラウドサービスを提供しています。

本記事では2022年2月現在におけるデータ基盤の動向と概略をまとめた内容をご紹介します。

データ基盤 概略

業種・業態・規模により子細な違いはあれど、「一次データの蓄積」「加工と保管」「用途別保管」の機能を持つものとされます。

データ基盤 構成例

データウェアハウスがレイクとマートの役割を兼ねることもあります。

データ基盤導入には全社データ戦略が必要

データ基盤構築のためにはデータをどのように活用するのかを定義する必要があります。以下がそのプロセスです。フェーズによって関わってくるプレイヤーが異なることが分かります1特に上流工程では広告代理店や伝統的なSIやコンサルティングファームなど従来は住み分けを行っていた業界同士が入り乱れるマーケットとなっています。重要なことは、データ基盤の構成は戦略に従うです2有名なチャンドラーの「組織は戦略に従う」から。目的のないデータ基盤は無用の長物にほかなりません。

データ基盤構築プロセス

ソシューション提供ベンダー

ソリューションはある程度の機能がまとまって提供されるDWHプラットフォームと、それぞれ機能別に提供するクラウド事業者のサービスがあります。

ベンダー 製品名 特徴
DWHプラットフォームDatabricksレイクハウスプラットフォームApache sparkの開発者らによって創業された企業。データレイクから機械学習構築までの一貫したパイプラインの構築が可能。自社ホスティングだけではなく、MS Azure、AWS、Google cloudからの利用も可能。 3Databricks https://databricks.com/jp/product/data-lakehouse
 SASViya老舗統計ソフトウェアハウスSASの各種ソリューションを統合したプラットフォーム総花的なきらいがある。クラウド、オンプレミス対応。UIとしてはRやPythonからのライブライやGUIがある。4SAS Viya https://www.sas.com/ja_jp/software/viya.html
紹介動画 https://www.youtube.com/watch?v=Vqhral49mI0
 SnowflakeSnowflake新興のITスタートアップによるDWH。AWS、Google cloud、Azureからの利用が前提。Databricksとほぼ同等の機能。5Snowflake https://solution.insight-lab.co.jp/snowflake
クラウド事業者AmazonAWSGoogle cloudと同じようなクラウド群。S3とRedshiftとという構成が多い。6S3 to Redshift by using Glue https://qiita.com/pioho07/items/3a07cf6dccb8dfe046ff
 GoogleGoogle Cloud100種類以上のサービスからなるクラウドコンピューティング群。Google cloud storageとdataflow、BigQueryなどで基盤を構築。
 MicroSoftAzureMS版、GC、AWS。エンタープライズのイメージがあるため、どちらかというと大企業がユーザ。
CDPTreasure DataTreasure Data CDPHadoopディストリビュータからスタート。各種ログデータの蓄積やCRMデータを統合したプラットフォームをCDPとして提供。

前項で列記した代表的なもの以外にも、数多の類似ソリューション及び周辺ソリューションがあります。

その他データ基盤 CDP系
  • Rtoaster (Brain pad)
  • Marketing cloud (Sales force)
AutoML
  • DataRobot (DataRobot)
  • Matrix Flow (Matrix Flow)
BI
  • Domo (Domo)
  • Tableau (Tableau)
ETL
  • Paxata (DataRobot)
  • Talend (Talend)

パイプラインの構築

データ基盤はそれ単独ではなく、BIやAutoML、ETLなどの関連ソリューションとの連携でパイプラインを構築するため、その組み合わせを考える必要があります。

AWS、GC、Microsoftクラウドコンピューティング群はそれぞれのサービスを組み合わせてパイプラインを構築できるため便利です。7SASやsnowflakeなどのベンダーと異なりDWHに特化したコンポーネントだけを持つのではなく、webサーバーなど様々な用途に使用可能なサービスを持つ。そのため何でもできるが、運用のためにエンジニアが必要な場合も。

解析ツールとの違い

データ基盤が定常的処理を行うのに対して、Python/R/baseSAS/SPSSなどの解析ツールはアドホックな解析を行うことで住み分けています。弊社は特にアドホックな解析と基盤導入のための要件定義に強みを持っています。

データ基盤解析ツール
データ処理バッチ処理/ストリーミング処理アドホック処理
該当プロセス運用PoC/及びサービ中のアドホック分析
目的すでに定義されたオペレーションの実行新たなオペレーションの定義や効果検証
ツール各種基盤ソフトウェアPython/R/base SAS/SPSS
担当部門サービス部門/インフラ部門サービス部門/データ解析部門
非機能要件重要
遅延なしでの処理、耐高負荷、可用性、安全性など
あまり重要ではない
データ基盤と解析ツールの違い

クラウド型が主流に

クラウドファースト8クラウドファーストとは https://www.gmosign.com/media/work-style/post-0068/の流れは近年、より顕著になっています。前項で紹介した基盤ツールも多くがクラウドに対応しています。

クラウドサービスのメリット
  • サービス非機能要件にかかる部分をある程度クラウド事業者に任せることできる。このためユーザは自社の機能要件に集中できる。
  • 高度なセキュリティを持つ。
  • スケールが容易。
  • 変動費であるため、インフラのイニシャルコスト不要。
  • 省エネルギー。

データ基盤の導入でお困りごとございましたら是非弊社までお問合せください。

中小企業の広告費に関する意識調査 (2021年11月)

Chart Data Business Graph Finance  - Mariakray / Pixabay

弊社は広告代理店様や事業会社様のマーケティング部門、及び金融機関様に対してデータ解析のサービスをご提供しています。一見異なる業種・業界と考えられますが抽象的な無形サービスを提供するという点で共通しています。

弊社は広告とファイナンス、2つの機能を融合するサービスを検討しております。そのため、2021年の11月に中小企業様の広告費とそれに関する資金調達についての調査を実施しました。本稿では調査結果の要約をお届けします。

調査対象

  • 中小企業経営者:163人
  • 調査モニター:大手調査会社モニター + 一部独自のリクルーティング
  • スクリーニング:なし
  • 期間:2021/11/12 | 2021/11/19

調査背景

スタートアップを含む中小企業にとってファイナンスは最重要事項です。銀行取引実績の多い老舗中小企業は銀行を含む金融機関からのデッドファイナンスが、他方スタートアップではVCやCVCからのエクエイティファイナンスが主です。しかし創業年数が短い非スタートアップ的中小企業(急なグロースをしない)はこのどちらも適さない場合があると考えました。

そのため広告費に使途を限定した中小企業の資金調達意向について調査し、新しい与信によるデッドファイナンスの可能性を考察するために調査を実施しました。

1.     今までの調達資金使途について

中小企業の約1割程度は、過去調達した資金の使い道として「広告・マーケティング費用」と回答。

[図表1 過去調達した資金の使途]

2.     今までの調達資金使途について 創業年数区分ごと

創業年数10年以下の企業はそうでない企業と比較して、過去調達した資金の使途として「広告・マーケティング費」と答えた割合が大きい。

[図表2 創業年数区分ごと 過去調達した資金の使途]

比較的若い企業は「広告・マーケティング費」のための資金需要が大きいと考えられます。

3.     今後の広告費のための資金調達の意向について

創業年数10年以下の企業は約半分が意向ありと回答。全体の約2割は融資での調達意向あり、また約1割は与信不適格で融資が難しいが、できることならば融資での調達を希望している。

[図表3 創業年数区分ごと 広告費の資金調達意向]

比較的若い企業はデッドファイナンスでの広告費調達意向が大きいと考えられます。

一方で銀行融資では与信不適格となりやすく、補助金や金利の高いビジネスカードローンなどに頼らざるをえないと考えられます。

お問い合わせ

大変恐縮ですが、本調査についてのお問い合わせは弊社問い合わせフォームよりお願いいたします。

精度の高い分析(≠モデルの精度が高い分析)をしよう

株式会社Crosstab 代表取締役 漆畑 充

何かが足りないレポート…

データ解析のプロジェクト(仮説検証、予測モデル構築など)でクライアントや上司にレポートを提出した時に、苦虫を噛み潰したように「まあ、うーん悪くは無いんだけど…」という反応をされた経験はありますでしょうか?またはその反対に、部下や分析会社から出てきたレポートに対して同じような反応をした経験はありますでしょうか?

一般的な統計数理及び機械学習の作法としては間違ったことはしていないようです。では何故このようなことが起こるのでしょうか。

このような場合、受け手(クライアントや上司)はレポート全体に「雑さ」を感じていることが多いです。受け手はその事業のプロですので彼らが何故そう感じるのかを考えることはより良い分析のヒントになるはずです。なお受け手自身の分析リテラシーが高い場合はこの「雑さ」を言語化することができるのですが、実際はそのような例はあまりありません。

原因

体系的に議論するよりは、筆者の経験からこのような印象を与えてしまう理由をいくつかあげてみます。

① 基礎集計表が無いため全体や小計の数値が不明

 →受け手は事業のプロです。そのため精緻に事業の数値を把握しています。そのためグラフに違和感を感じた場合、元の数値を見せてくれと言われることも多いです。その場合Appendixでも良いので基礎集計を用意しておかないと「気が利かない」と思われます。

② 何故か前回報告の時と値が変わっている

 →再現性の問題です。これもよく見かけるのですが、乱数を固定していないまたは処理を前回から変更した場合に発生します。乱数は固定する、処理の変更は補足として記載するなどが必要です。優秀なビジネスマンほど良く数値を見ており、社内報告でも同じ数値で報告します。そのため毎回値が変わるようでは困るのです。(特に金融のお客様は1桁目までしっかり確認する習慣があります)

③ 明らかに異常な数値が出ている

 →間違っていてもエラーメッセージの出力がない作業で、不具合が起きていることが多いです。例えば、良くあるのは巨大なcsvをexcelで読み、保存してしまい行数制限によりある行以降が消えてしまっている。(excelは1,048,576 が行の最大数ですのでpythonで読み込んだ後に行数を確認しましょう)またこれもcsvを開いて閉じたりした場合大きな数値の下何桁かが0になってしまっているなどです。これは基礎集計を注意深く行えば回避できることが多いです。そのため①の基礎集計がないというのが間接的にこちらに響いています。

 →その他にもカテゴリ変数のコードが間違っている。例えばお客様システム上で性別という項目は1=男性、2=女性と定義されているとのことでしたが実際はその逆になっていたようです。実際にあった話です。集計した段階で本来女性が多いサービスなのにそうなっていないため、問い合わせたところで発覚しました。

 上記2つの例では分析者側に直接の落ち度がないとも言えます。特に前者の例ではお客様がシステムからファイルを抽出する場合に破損していたりすることも多いです。一方で分析依頼側である受け手はそうは見ません。プロとして受領データを注意深く観察しなかったことに「雑さ」を感じるのです。

④ 目的変数や説明変数の設定不備

 →例えばサブスクリプションの解約に至る要因を分析するということを考えます。目的変数を「解約フラグ」とし、説明変数を解約ユーザの特徴とします。特徴の一つとして解約予兆行動が考えられますが、解約ユーザは解約方法を探すためサービスサイトにアクセスするので直近のPVが増えます。従って解約直前の行動を説明変数として採用してしまうと、「直近サービスサイトのPVが多いユーザが解約しやすい」という誤った結論を導いてしまいます。

 →またECサイトなどのようにユーザが明確に「解約」の意思を示さない離脱分析の例では、離脱の定義を分析側で設定しないといけません。年に一度しか購買しないような商材に対して「離脱=3ヵ月購買なし」とするのは不適切です。

どうするか

このようなことが起こる主な原因は「データに対する理解不足」と「業務に対する理解不足」からです。

データに対する理解不足を解消するには、分析作業の初期に基礎集計などのデータを理解するためにまとまった時間をとることです。ある程度やっていると必ずデータに対しての疑問がいくつか出てくるはずです。それらをリストにして関係者へのヒアリングを行いましょう。ステークホルダの中には「早く分析に入れ」とせかしてくるタイプもいますが、十分な時間をとりましょう。できればデータ精査の結果を彼らを交えてレビューしたいところです。

後者に関しては業務知識を身に着けるというのが月並みな意見ですが、一朝一夕にはできないと思います。従ってお客様や担当者にとにかくわからないことを聞くということが重要です。ただし少し調べればわかるようなことを聞くのではなく、調べた上で自分はこう考えた、というような仮説を提示するようにしましょう。重要なのはお客様やステークホルダーのビジネスを理解したいという態度です。

また普段からビジネスの教養として、業界本やお客様の業界紙や専門雑誌などを読む、中小企業診断士試験の勉強をするなどがあります。

なぜこのようなことを書いたか

実のところデータ解析のプロジェクトにおいて数理統計の知識の有無やプログラミングの巧拙でトラブルになることはあまりないのです。一方でデータに対しての理解や業務知識の有無は成果物のクオリティに大きな影響を与えます。しかしデータ解析一般論においてこの点は軽視されていると感じています。当然といえば当然ですが、数理統計や機械学習が好きでこの仕事をしている人ほどその傾向があります。優秀なスキルセットがありながらソフトスキルの欠如によりその評価を落とすのはもったいないです。そのために参考になればと思い書きました。

またデータ解析の成果物に失望してしまうステークホルダーを減らしたいという意向もあります。はじめて取り組んだ成果物が、本稿で書いた「雑な」ものであった場合データ解析に対する期待値は地に落ちてしまいます。これは解析者、ステークホルダー双方にとってデメリットです。

コンビニのおにぎりの見た目から試食を拒否したシェフが話題になりました。コンビニはおにぎりを沢山の人に入手しやすい価格で提供するのが使命ですので、見た目がどうのというのは見当違いです。データ分析でも大衆向けの廉価分析であるならばここまで気にすることはないと思います。しかし高付加価値のコンサルティング業務として行う場合料理でいうところの見た目というのも重要になります。一度「雑さ」みたいなものを感じさせてしまうと、モデルの精度や技術に関する中身まで評価してもらえなくなるのです。

モデル精度もさることながら、「精度の高い分析」が重要というお話でした。

2022年・新年のご挨拶

謹んで新年のお慶びを申し上げます。

本日より通常営業を開始しております。

旧年中は格別なご高配を賜りまことに有難く厚く御礼申し上げます。
2022年は新サービスの発表を予定しておりますのでどうぞご期待下さい。
引き続き今後とも変わらぬお引き立ての程宜しくお願い申し上げます。

皆様のご健勝とご発展をお祈り申し上げます。

株式会社Crosstab
代表取締役 漆畑 充

広告会社様・事業会社様

弊社は広告会社様及び、事業会社様のデータ・ドリブン・マーケティングの支援を行います。また事業会社様に対しては、お客様の資産であるデータを活用したビジネス開発のコンサルティングやファシリテーションプログラムをご提供しております。

お客様サービス分類内容ご提供方式
広告会社様・
事業会社様共通
データ解析受託・
マーケティング
消費者・調査、
アンケート解析
コンサルティング/
アナリティクス作業
ターゲティング
モデル作成・
ターゲットリスト作成
コンサルティング/
アナリティクス作業
CRMのための
データ分析
コンサルティング/
アナリティクス作業
施策検証コンサルティング/
アナリティクス作業
広告効果検証コンサルティング
or
ソリューション
チーム・ビルド
人材の育成
研修ソリューション
広告会社様データビジネス
開発支援
広告商品開発支援コンサルティン/
アナリティクス作業
データアライランスの
ための戦略策定
コンサルティング
事業会社様データ解析受託需要予測コンサルティング/
アナリティクス作業
HRテックに係る分析コンサルティング/
アナリティクス作業
データビジネス
開発支援
データビジネス
開発支援
コンサルティング

コンサルティング及びアナリティクス作業は、稼働に応じてお見積りさせて頂きます。ソリューションは弊社で定めた定価でご提供いたします。大変恐縮ではございますが、詳細は弊社までお問い合わせ下さい。

ポストコロナはSociety5.0の時代、データを活用した付加価値創造が焦点となる

Digitization Transformation Laptop  - geralt / Pixabay

株式会社Crosstab 代表取締役 漆畑充

Society 5.0 

Society 5.0とは第5期科学技術基本計画の中で提唱された概念で、

“サイバー空間とフィジカル空間(現実社会)が⾼度に融合した「超スマート社会」を未来の姿として共有し、その実現に向けた⼀連の取組”

内閣府資料 1https://www8.cao.go.jp/cstp/kihonkeikaku/5gaiyo.pdf

とされています。具体的な例として交通データを用いたモビリティサービスの高度化、医療データを活用した個人の健康促進や予防医療への応用などです。その他にも食品や農業など様々な分野での取組が期待されています。特にこれまでの情報化社会(Society 4.0)との違いとしてサイバー空間とフィジカル空間がシームレスに結合され、AIやデータ活用を元に新たな価値を創造するという点が強調されています。

本コンセプトの初出は2016年ですが、間違いなくポストコロナの時代のDXの一つの道標となることが予想されます。従って当然データサイエンスの立場からもこれらの動きを無視する事はできません。そこで本稿では今までのデータサイエンスのあり方を振り返り、現状の問題点と、そしてSociety 5.0を意識した今後のあるべき姿について弊社の見解を述べて行きたいと思います。

2010年代 ビジネスにおけるデータサイエンスの萌芽

2010年代前半頃よりwebサービス企業を中心にビッグデータを呼び水としてデータサイエンスブームが起こりました3データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ ディミトリ マークス (著), ポール ブラウン (著), 馬渕 邦美 (監修) は日本にデータ・サイエンティストという言葉を広く知らしめた書籍であり、2013年3月4日に発売されている。4「Data Scientist: The Sexiest Job of the 21st Century」Harvard Business Review  https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century データサイエンティストを21世紀、最もセクシーな職業と評した有名なこの記事は2012年10月に公開された。。企業が自社のデータを蓄積し、データサイエンティストと呼ばれる専門人材を用いてそれらを分析させ自社の事業に活用するという取組が当たり前のように行われるような時代になったのです。これより前から金融機関や事業会社のマーケティング部門などでも似たような取組は行われていましたが、あくまでリスク管理やCRMといったある部門・機能に限定的な動きであり、扱うデータも少量でした。対してこの流行下でのデータ関連プロジェクトの特徴はCXOからのトップダウン方式である、webログをはじめとして非常に大きいデータを扱うなど、様々な意味で従来のものとは規模もスケールも異なるものでした。

このブームの初期、各企業は人材採用とデータストレージへの投資に注力しました。データサイエンティスト自体が新しい職種であったため、経験者は無論のこと適正者も希少という状態でしたので、人材市場での候補者の価値は高くなりがちでした。現在でも続くデータサイエンティストが高給という印象はこの時代の人材事情が影響していると思われます。

この頃のストーレジはクラウドではなくオンプレミスのカラム指向型(従来のRDBは行指向型)が主流でした。ほぼ同時期にhadoopディストリビュータが表れこちらはwebログのトランザクションのようなデータの保管として使われるようになります。

それらから程なくしてデータサイエンティストとは異なる機械学習エンジニアという職種が台頭してきます。前者はコンサルティングやビジネススキルに強みを持ち、後者は実装力を含めた従来のITエンジニアに近いスキルを持っているとされています。同時に機械学習やデータサイエンスに係る技術の高度化が進みます。kaggleと言われる分析コンペティションのプラットフォームがそれに拍車をかけました。また機械学習の領域では深層学習におけるブレイクスルーが置き、第4次AIブームが到来しました。2010年代中盤にはクラウドストレージが主役となり、企業は高額な初期費用や保守費用の負担をすることなく、従量課金でサービスを利用できるようになりました。

ビジネスにおけるデータサイエンスの黎明期は人材とそれを実現する技術の高度化に焦点が当てられたと言えます。

次の時代への課題

データやAIの活用に積極的でありかつ、成功している企業の代表例はGAFAやNetflixのようなデジタルプラットフォーマーであることに異論はないはずです。彼らは(Appleを除けば)生まれながらのデータドリブン企業と言えます。何故ならば創業時より自社でデータを収集し、それらを活用したサービスを提供しているから、もう少し具体的に言えばバリューチェーンの中にデータ収集→加工→AI・機械学習モデル構築→付加価値創造→サービスに還元というデータチェーン5データサプライチェーンとも言うようです。https://hbr.org/2021/06/data-management-is-a-supply-chain-problemが元より組み込まれているからです。またここ10年ぐらいの間に創業したIT系スタートアップの多くも始めからデータを収集、活用する出口戦略ありきでプロダクトを開発しており、これらも生まれながらのデータドリブン企業と言えます。このような企業はデータやAIの活用成果と事業存続に強い相関があるという特徴を持ちます。

一方で我が国の伝統的な企業はどうでしょうか?以下の図表1を見てみますと、およそ約4割はデータの利活用ができていない、また全体の約2/3はそのビジネスへの成果を得ていないと回答しています。加えてこの調査対象者はITユーザ企業とのことですので、一般のレガシーな企業を対象とした場合もっと悲観的な結果になった可能性もあります。前述したITメガベンチャーと異なり、彼らのビジネスモデルはそもそもバリューチェーンの中にデータチェーンを要するものではありません。そのためデータやAIの活用が遅れたり、その活用成果が得られていなくても急に業績が悪くなったりすることはありません(ゆでガエルになる可能性があります)。ある意味既存バリューチェーンが頑健であるため、あえてデータやAIの活用をしなくとも短期的には困らないという状況が活用を遅らせ、またその頑健さゆえデータバリューチェーンの入り込む要素がないため、R&Dや経営企画内の取組に終始してしまいデータ活用が表面的になりその成果が得られていないのではないかという懸念があります。例えばBIツールを導入し売上を可視化する仕組みを作ったとしても、それを見て情報を得て付加価値を創造するという工程が業務プロセスに無ければそれは無用の長物です。一時期多くの企業の受付にペッパー君が置かれていた時期がありましたが、一時的な珍しさで注目されただけで次々と姿を消したのと同じです。

[図表1]

出典:ガートナー (ITデマンド・リサーチ)/調査:2018年11月6ガートナージャパン株式会社プレスリリース https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20190527

ビジネスにおけるデータサイエンスの黎明期は、データサイエンティストや機械学習エンジニアのような人材とクラウドや深層学習のようなテクノロジー、つまり「どのように実行するか」という観点に重きを置かれてきました。しかし前述したように我が国の多くの企業がその成果について十分な説明ができているかというと疑問です。筆者はこれをポストコロナの時代への課題と捉え、データチェーンとバリューチェーンの巧みな連続的かつ持続的な連携から付加価値を創造する仕組みを作る、そのために「何をするのか」ということに焦点を当てる必要があるのではないかと考えます。

我々が考えるバリューチェーンとデータチェーンの連携

バリューチェーンは経営学者マイケルポーターにより導入された概念であり、

企業が製品を設計、生産、販売、配送、サポートするために遂行する活動の集合

ジョアン・マグレッタ (著), 櫻井祐子 (著), 櫻井 祐子 (翻訳) . (2012). 〔エッセンシャル版〕マイケル・ポーターの競争戦略. 早川書房.

とされます。我々が考えるバリューチェーンとデータチェーンの連携とは、それら活動の諸々から発生するデータを収集、加工し、そこから付加価値を創造し風上・風下の活動に還元するような連鎖(チェーン)です。

[図表2 バリューチェーン]

既存の頑健な価値連鎖の中にこの仕組みを作るのは容易ではありません。例えば部署間でのセクショナリズムがデータ連携を躊躇させることもあるかもしれません。また収集したデータの管理や質の維持を行うガバナンスの問題もあります。2010年代に登場したDMP7DMP:Data Management Platformはこのようなデータマネジメントの問題の幾らかには有効でした。しかし付加価値創造とそのバリューチェーンへの還元という観点からは依然として課題が残ります。ポストコロナの時代はこれらをクリアするデータチェーンの設計が大きなテーマになると考えます。

Society 5.0 との関連

冒頭で述べたように、Society 5.0はサイバー空間とフィジカル空間が”高度に融合”し、データやAIで生み出した価値をユーザに提供するような世界を提唱しています。”高度に融合”するためには、先ほど述べたバリューチェーンとデータチェーンの高度でかつ連続的な連携が不可欠であるというのが弊社の意見です。例えばモビリティサービスではただ外部のジオグラフィックデータや個々の移動データを集めたデータベースを作るだけでは不足で、それをサービスのバリューチェーンごとに適した形にAIや機械学習で加工して組みこむことが必要です。

今まではサービスとしてどう提供するのかという観点がやや欠けていましたが、ポストコロナの時代は改めて付加価値の創造を意識したデータサイエンスの取組が期待されます。

弊社は分析受託だけではなく、上記を実現するデータビジネス開発支援コンサルティングもご提供しております。

【顧問データサイエンティスト】前処理/外れ値などデータサイエンス技術のアドバイザリーサービスの提供

「調べものって面倒だな・・・」
「そもそもどう調べればいいの?」
仕事をすすめる中でこんなんこと思ったことはありませんか?

特にデータサイエンティスト分野は体系化された書籍がなく、
「分からないこと」で常にプレッシャーを感じながら仕事を進めていると思います。

そこでもし、すぐに質問ができ的確な回答でリードしてくれる存在が近くにいたら頼もしいすよね。

株式会社Crosstabはそんな頼れる存在になれるようデータサイエンスの技術的アドバイザリーサービスを提供しています。
このサービスは弊社を顧問データサイエンティストとして契約していただき、困ったときの相談窓口として利用していただくサービスです。

顧問データサイエンティストの頼もしさにご満足いただけることと思います。

顧問データサイエンティストのすすめ

↓このような不安やお悩みをお持ちではありませんか?

・「調べもの」に時間がかかってしまい長時間労働になっている
・実は統計学の知識に不安がある
・実は数学が苦手で数学的手法のアドバイスがほしい
・プロセス過程における相談役がほしい
・プロジェクトが行き詰まってしまっている
・専門書はたくさんあるのに的確な答えが見つからない
・経験が浅く分からないことだらけ。周りの人も忙しそうで訊くに訊けない。

これらの問題は「顧問データサイエンティスト」に相談してしまえばすぐに解決できます。
いちいち調べたり、本を探したり、悩んでいる時間は勿体ない!
プロに訊いてしまいましょう!

㈱Crosstabの代表はデータサイエンティス業務に15年以上携わっており、幅広い知識と経験から的確な答えをご提案することができます。

経営者、管理者、指導的立場に立つ場合の相談、実務担当者からの相談、どちらも対応可能です。

「顧問データサイエンティスト」がもたらす意外な効果

「顧問データサイエンティスト」を身近に置くことで、

・労働時間を削減できる
「調べる時間」「悩む時間」が削減することで労働時間の削減にもつながります。
空いた時間で他の業務に手を回したり、早く仕事を切り上げてプライベートを充実させたいですよね。
慢性的長時間労働による部署の疲弊も緩和されることが期待できます。

・プロジェクトの成功への近道
的確なアドバイスを受けられることで、プロジェクトを頓挫することなく成功させることができます。

・プレッシャーからの開放
技術的相談ができる相手がいることで仕事のプレッシャーから開放されます。
「仕事の進め方、本当にこれで大丈夫かな?」と休日も頭を悩ませることはありませんか?
自分で抱え込まずにまず相談してください。
必ず適切なアドバイスをご提供します。

サービス方式について

「データサイエンスアドバイザリーサービス」は月額方式タイムチャージ方式で提供しています。

顧問料など詳細はお問い合わせください。

株式会社Crosstabって何の会社?

株式会社Crosstabはデータサイエンスアドバイザリーサービスの他、クライアント様のデータ解析の受託、データ解析に基づくコンサルティング、そのほかデータサイエンティスト研修なども提供しています。
ソリューション事例はこちら、研修事例はこちら

about members

現在代表がすべての案件に携わっています。
代表が直接関わるため、担当者ごとの技術の差がなく、安心してご依頼いただけます。
ここで代表の経歴をご紹介いたします。


代表氏名 漆畑 充(うるしばた みつる)
・2005年慶應義塾大学理工学部卒業、2007年同大学院理工学研究科(数学専攻)修士課程修了。
・2007年株式会社金融エンジニアリング・グループ入社。
(金融機関向けデータ分析業務に従事。与信及びカードローンのマーケテイングに関する数理モデルを作成。)
・その後デジタル・アドバタイジング・コンソーシアム株式会社入社。
(アドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言、コンサルティング、プロジェクトマネジメント業務に携る。)
スキル:Python,SQL,R,SAS(SAS Base Programming取得),SPSS
・得意分野:金融工学、InsureTech、数理統計学
・書籍「現場のプロが伝える前処理技術」、「AI・データ分析モデルのレシピ」

広告業界にいたこともあり、ノリが良いキャラクターですが、仕事に関しては几帳面で完璧主義です。

さらに詳しい経歴はこちら。データサイエンス情報のブログはこちら

お問い合わせ

「顧問データサイエンティスト」サービスの提供により、業務の効率が上がり、本業の成功、従業員のメンタルヘルスケアの一助となれることを願っています。

困ったときの用心棒としてぜひ当サービスをご活用ください。

クロス集計を制するものはデータ分析を制する

Goal Start Up Growth Hacking Begin  - geralt / Pixabay

株式会社Crosstab 代表取締役 漆畑充

クロス集計はデータ分析の基本

弊社名「Crosstab」はクロス集計の英語名「cross tabulation」に由来します。単純ながら強力な手法であり、初期の段階で分析の方向性を定めるためや、データの加工の方法を検討したり、またモデル構築時に投入する変数を選択したりと様々な場所で有効です。このことよりクロス集計はデータ分析を行う上での基本中の基本と言っても過言ではありません。華やかなモデル構築ばかりに目がいきがちですが、弊社はこの基本を大事にするという思いからこの社名をつけました。

概要

クロス集計は図1-1のように2つの異なる変数それぞれのカテゴリを表頭表側に並べて、それぞれの変数のカテゴリの組合せごとに集計する方法です。英語では「Contingency table」とも言うようで、1904年にピアソンが言及1“On the Theory of Contingency and Its Relation to Association and Normal Correlation” https://archive.org/details/cu31924003064833/page/n15/mode/2up したのが始めと言われています。

一般的に、表頭に目的変数(例えばクリックしたか、コンバージョンしたかのフラグなど)表側に説明変数を配置します。これを逆にやると素人かなと思われたりします。実際に実務で知りたいのは説明変数のもとでの目的変数の分布であるので(つまりP(Y|X))、横合計で除した横%版を用いることが多いです(図1-2)。例えばXが性別でYがコンバージョンフラグとすれば横%は男性/女性のコンバージョン率です。これも慣れない人は逆(つまりP(X|Y)、縦で除した縦%)を計算してしまうのですが、これだとコンバージョンした人の男性割合が分かるだけで、男性はコンバージョンしやすいのかどうかというのは分かりません。

役割

クロス集計は主に連続変数で言うところの散布図のような役割、つまりXとYに相関があるのかどうかを見るために使います。また連続変数であっても適当な閾値でカテゴリ化してしまえば、他のカテゴリ変数と横並びで相関の度合を比較することができます。連続量の相関係数に相当するものとしてχ2乗統計量があります。細かい計算式の定義はここでは触れませんが、Excelで簡単に計算できます。他にも分割票の赤池情報量基準(AIC) 2https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t2_aic-cont.html に詳しいやBICなどの情報量基準なども相関の度合として計算できます。

その他にも欠損の処理や外れ値処理の方法を検討したり、表側をネストさせることで説明変数の2つの組合せと目的変数との相関も見ることができます。マーケティングなどで機械学習モデルを構築するために、意味がある解釈可能なセグメントを定義しておく場合にこれを行う場合があります。例えば性別年齢と家族構成で消費傾向が異なるセグメントを作成したりです。勘の良い方はお気付きかと思いますが、表側をネストさせていくとカテゴリの値で分岐した決定木と見なせます。

機械学習全盛期においてあえてクロス集計を推す理由

現在の機械学習モデルは自動で変数を選択したり、さらにAutoMLともなれば前処理までほぼ自動で行うものもあります。このような時代にクロス集計のようなレガシーな手法の重要性を説く理由は、それがローデータの情報を最大限維持しつつ、また視認可能な最適な単位だからです。データ分析の基本は丹念に自分の目でデータを一つ一つ確認することですが、当然数万件のデータをつぶさにとなれば困難です。そのかわりにその最適な単位を確認することでデータを俯瞰しようというのです。

データを俯瞰できていれば、ローデータの持つバイアスや加工・集計ミスのようなプログラムがエラーメッセージを出力しないクリティカルな見落としもすぐ気が付くようになります。例えばプロジェクトも中盤になると、レコードの件数などは覚えてしまうため、マージ処理などのミスはすぐに分かります。また打合せの最中に、上司やお客様から急に「例えば男性の場合の数値はどうなっているの?」という問にもすぐに答えられます。「ああこいつは、こんなことも知らずに分析してたのか」と思われ信頼をなくすということもありません。

クロス集計を制する者はデータ分析を制するというのはこのような理由からです。

最後に

弊社は多数の説明変数と目的変数のクロス集計表を作成し、変数の重要度(χ2乗統計量)を算出する自社のツールを保有しています。

是非データ分析でお困りごとございましたら、弊社までご相談ください。

データサイエンティスト人材問題を解決します!

人材問題には”人が足りない”という「量的問題」と、”仕事に見合った能力をもつ人材がいない”という「質的問題」があります。
熟練のデータサイエンティストに「業務委託」することにより量的質的人材問題を解決することがきます。

「採用」ではなく「委託」するという選択

人材問題でよくあるお悩み。

お悩み1:データサイエンティストの求人を出したが応募が来ない
お悩み2:希望する能力を持った人材が集まらない
お悩み3:データ解析部のアドバイザーがほしい
お悩み4:データ解析部を立ち上げたいがどこから手をつけてよいかわからない
お悩み5:プロジェクトの期間だけ人材がほしい   etc


求人広告を出し続ける?フリーランスや派遣を探し続ける?


株式会社Crosstabに「業務委託」することで解決。
経験豊富なデータサイエンティストが的確な答えを導き出します。
「業務委託」のメリットは「業務を任せられ手がかからない」ことと「必要な期間だけ契約できる」ことです。
「新たな人材が見つかるまで」「社内スキルが定着するまで」「プロジェクトの期間だけ」利用することができます。
ぜひお悩みをおきかせください。

株式会社Crosstabって何の会社?

株式会社Crosstabはクライアント様のデータ解析の受託、データ解析に基づくコンサルティング、そのほかデータサイエンティスト研修なども提供しています。
ソリューション事例はこちら、研修事例はこちら

about members

現在代表がすべての案件に携わっています。
代表が直接関わるため、担当者ごとの技術の差がなく、安心してご依頼いただけます。
ここで代表の経歴をご紹介いたします。


代表氏名 漆畑 充(うるしばた みつる)
・2005年慶應義塾大学理工学部卒業、2007年同大学院理工学研究科(数学専攻)修士課程修了。
・2007年株式会社金融エンジニアリング・グループ入社。
(金融機関向けデータ分析業務に従事。与信及びカードローンのマーケテイングに関する数理モデルを作成。)
・その後デジタル・アドバタイジング・コンソーシアム株式会社入社。
(アドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言、コンサルティング、プロジェクトマネジメント業務に携る。)
スキル:Python,SQL,R,SAS(SAS Base Programming取得),SPSS
・得意分野:金融工学、InsureTech、数理統計学
データサイエンティストとして15年近くの経験を有し、書籍出版、アルゴリズム特許も取得しています。
広告業界にいたこともあり、ノリが良いキャラクターですが、仕事に関しては几帳面で完璧主義です。
さらに詳しい経歴はこちら。データサイエンス情報のブログはこちら


実際の業務の進め方

クライアント様との実際のやりとりをご紹介します。

クライアントA社様(広告代理店)

在籍(対応)日時毎週月曜日、10:00〜14:00(オンライン対応)
依頼内容:広告マーケティングのデータ解析、解析技術の指導、資料作成のアドバイス。クライアント様のデータ解析部の業務の一部、技術指導を任されています。

在籍日(対応日)に打ち合わせをしながら業務を進め、来週までに仕上げておくタスクを確認。→翌週の在籍日(対応日)にタスクを報告し、また業務を進めます。
質問がある場合は対応日以外でも回答します。

お問い合わせ

人材問題のお悩みだけでなく「こんなことできるかな?」「AIを導入してみたい」なども対応できます。ご相談、お見積もりはもちろん無料です。
ぜひ(株)Crosstabにお問い合わせください。

データサイエンティストとしての深い知識と経験をご提供します。