株式会社Crosstab 代表取締役 漆畑 充
2010年代の前半頃からweb広告業界を中心に DMP(データ・マネジメント・プラットフォーム) という、 クッキーベースのオーディエンスデータを管理するプラットフォーム が流行しました。しばらくしてそれらのデータだけではなく顧客の購買情報や属性情報などの1stパーティデータもその管理対象とするものが現れます。クッキーレス時代を迎えるに当たって、特にDMPとの違いを強調するためにデータプラットフォーム(データ基盤)と呼ぶことが多いようです。進化の過程で名前から単語が一つ抜け落ちるという珍しい例です。この中でも特に顧客データに特化しているものをCDP(カスタマー・データ・プラットフォーム)と呼ぶようです。
データ基盤ソリューションを提供する事業者は主に専業事業者とクラウドサービス事業者に分けられます。前者はデータ基盤そのものをオールインワンで提供しており、後者は基盤構築を可能にするクラウドサービスを提供しています。
本記事では2022年2月現在におけるデータ基盤の動向と概略をまとめた内容をご紹介します。
データ基盤 概略
業種・業態・規模により子細な違いはあれど、「一次データの蓄積」「加工と保管」「用途別保管」の機能を持つものとされます。
データウェアハウスがレイクとマートの役割を兼ねることもあります。
データ基盤導入には全社データ戦略が必要
データ基盤構築のためにはデータをどのように活用するのかを定義する必要があります。以下がそのプロセスです。フェーズによって関わってくるプレイヤーが異なることが分かります1特に上流工程では広告代理店や伝統的なSIやコンサルティングファームなど従来は住み分けを行っていた業界同士が入り乱れるマーケットとなっています。重要なことは、データ基盤の構成は戦略に従うです2有名なチャンドラーの「組織は戦略に従う」から。目的のないデータ基盤は無用の長物にほかなりません。
ソシューション提供ベンダー
ソリューションはある程度の機能がまとまって提供されるDWHプラットフォームと、それぞれ機能別に提供するクラウド事業者のサービスがあります。
ベンダー | 製品名 | 特徴 | |
---|---|---|---|
DWHプラットフォーム | Databricks | レイクハウスプラットフォーム | Apache sparkの開発者らによって創業された企業。データレイクから機械学習構築までの一貫したパイプラインの構築が可能。自社ホスティングだけではなく、MS Azure、AWS、Google cloudからの利用も可能。 3Databricks https://databricks.com/jp/product/data-lakehouse |
SAS | Viya | 老舗統計ソフトウェアハウスSASの各種ソリューションを統合したプラットフォーム総花的なきらいがある。クラウド、オンプレミス対応。UIとしてはRやPythonからのライブライやGUIがある。4SAS Viya https://www.sas.com/ja_jp/software/viya.html 紹介動画 https://www.youtube.com/watch?v=Vqhral49mI0 | |
Snowflake | Snowflake | 新興のITスタートアップによるDWH。AWS、Google cloud、Azureからの利用が前提。Databricksとほぼ同等の機能。5Snowflake https://solution.insight-lab.co.jp/snowflake | |
クラウド事業者 | Amazon | AWS | Google cloudと同じようなクラウド群。S3とRedshiftとという構成が多い。6S3 to Redshift by using Glue https://qiita.com/pioho07/items/3a07cf6dccb8dfe046ff |
Google Cloud | 100種類以上のサービスからなるクラウドコンピューティング群。Google cloud storageとdataflow、BigQueryなどで基盤を構築。 | ||
MicroSoft | Azure | MS版、GC、AWS。エンタープライズのイメージがあるため、どちらかというと大企業がユーザ。 | |
CDP | Treasure Data | Treasure Data CDP | Hadoopディストリビュータからスタート。各種ログデータの蓄積やCRMデータを統合したプラットフォームをCDPとして提供。 |
前項で列記した代表的なもの以外にも、数多の類似ソリューション及び周辺ソリューションがあります。
その他データ基盤 CDP系
- Rtoaster (Brain pad)
- Marketing cloud (Sales force)
AutoML
- DataRobot (DataRobot)
- Matrix Flow (Matrix Flow)
BI
- Domo (Domo)
- Tableau (Tableau)
ETL
- Paxata (DataRobot)
- Talend (Talend)
パイプラインの構築
データ基盤はそれ単独ではなく、BIやAutoML、ETLなどの関連ソリューションとの連携でパイプラインを構築するため、その組み合わせを考える必要があります。
AWS、GC、Microsoftクラウドコンピューティング群はそれぞれのサービスを組み合わせてパイプラインを構築できるため便利です。7SASやsnowflakeなどのベンダーと異なりDWHに特化したコンポーネントだけを持つのではなく、webサーバーなど様々な用途に使用可能なサービスを持つ。そのため何でもできるが、運用のためにエンジニアが必要な場合も。
解析ツールとの違い
データ基盤が定常的処理を行うのに対して、Python/R/baseSAS/SPSSなどの解析ツールはアドホックな解析を行うことで住み分けています。弊社は特にアドホックな解析と基盤導入のための要件定義に強みを持っています。
データ基盤 | 解析ツール | |
---|---|---|
データ処理 | バッチ処理/ストリーミング処理 | アドホック処理 |
該当プロセス | 運用 | PoC/及びサービ中のアドホック分析 |
目的 | すでに定義されたオペレーションの実行 | 新たなオペレーションの定義や効果検証 |
ツール | 各種基盤ソフトウェア | Python/R/base SAS/SPSS |
担当部門 | サービス部門/インフラ部門 | サービス部門/データ解析部門 |
非機能要件 | 重要 遅延なしでの処理、耐高負荷、可用性、安全性など | あまり重要ではない |
クラウド型が主流に
クラウドファースト8クラウドファーストとは https://www.gmosign.com/media/work-style/post-0068/の流れは近年、より顕著になっています。前項で紹介した基盤ツールも多くがクラウドに対応しています。
クラウドサービスのメリット
- サービス非機能要件にかかる部分をある程度クラウド事業者に任せることできる。このためユーザは自社の機能要件に集中できる。
- 高度なセキュリティを持つ。
- スケールが容易。
- 変動費であるため、インフラのイニシャルコスト不要。
- 省エネルギー。
データ基盤の導入でお困りごとございましたら是非弊社までお問合せください。