マーケターにとって実行した施策がどれだけ売上に貢献したかを計測することは重要です。例えば広告であればMarketing Mix Modelingの項でも述べましたように、それらの効果を計測することで広告出稿計画の最適化を行えます。またキャンペーンではその施策がどれだけ有効であったのかを定量化することができれば、今後のキャンペーン(CP)内容を考える場合に参考になります。
一方でこれら効果の計測は一般的に簡単ではありません。例えば暑い季節に集中的にビールの広告を投下したときに、売上が向上したとします。しかしビールの売上増加は広告の投下の効果だけではなく季節的な効果によるものも強いと考えられます。従って単純に売上が向上した事実のみから広告の効果があったとは言い切れないのです。
他にも広告・施策対象者に何らかの偏りがあると、同じように効果の計測が難しくなります。例えば元々コンバージョンしやすい層のみ(例えば男性20代向け商品に対して当該層を中心に対象とする)にCP施策を実施した場合を考えます。もしこのときCP施策対象者の販売単価が非対象者より大きいという結果が出たとしても、それがCPの効果なのか、CP対象者の偏りによるものか見分けが付きません。このように広告・施策変数に強く影響を与える外生変数が存在すると、単純にそれら変数の相関を見ればいいというわけにはいかないのです。
このように広告・施策効果の検証は重要でありつつも、その計測は場合によっては難しいことが分かります。そこで本稿ではこのような課題に対して有効な「統計的因果推論」というフレームワークをご紹介します。統計的因果推論は疫学の分野を中心に広がったようですが、最近では広告やマーケティングの効果検証に用いられる事例が出てきました。この分野では2つのフレームワークが有名で、それぞれPearlとRubinという学者が中心になり構築したものです。本稿では初めに交絡因子や因果ダイアグラムなどの因果推論の基本概念を説明し、次に層別での分析を、その次に層別対象変数群であるための基準としてPearl流のバックドア基準という概念を導入します。最後にRubin流フレームワークのツールである傾向スコアに触れます。
本稿は主に以下の書籍及びwebサイトを参考にしています。
- 統計的因果推論: 回帰分析の新しい枠組み. (2004). 日本: 朝倉書店.
- 調査観察データの統計科学: 因果推論・選択バイアス・データ融合. (2009). 日本: 岩波書店.
- Glymour, M., Pearl, J., Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. ドイツ: Wiley.
- Imbens, G. W., Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction. イギリス: Cambridge University Press.
- 岩波データサイエンス 3. (2016). 日本: 岩波書店.
- 統計数理研究所林氏のスライド
- シンプソンのパラドックスのwikipedia
因果推論のモチベーション
まず初めに統計学のお題目ともいえる「相関と因果は異なる」という命題について考えます。
相関≠因果
相関している2つの変量同士には必ずしも因果関係があるとは言えません。その理解が足りないと誤った意思決定をしてしまいます。例えばスーパーの店舗における冷房の使用量とビールの売上の関係が以下のように得られたとします。この時冷房を沢山使えばビールが良く売れるといえるでしょうか?
この例の意思決定は正しくはありません。何故ならば冷房の使用量と、ビールの売上は共に外気温が高い場合に共に大きくなる量(相関関係)であり、互いに因果関係がないからです。従って外気温とは独立に冷房の使用量を上げたとしてもビールの売上は増加しません。このように一般的には因果関係≠相関関係です。因果ではないことを強調して疑似相関ということもあります。個人的には疑似因果の方が適切な言葉だと思うのですがいかがでしょうか。
類似した例として、人口と犯罪件数の関係(左下図)やサービスへの不満とHP閲覧数の関係(右下図)などがあります。
介入効果の測定方法
広告やマーケティングのキャンペーン施策は売上などに対して疑似相関ではなく因果を持つと考えられます(というかその前提があるからこそ施策を打つわけですが)、これら施策を介入とここでは呼ぶこととします。
一般的に施策介入の効果を確認するには右下図のようなクロス集計表を作成し、施策対象/対象会社者の購買率を比較します。
シンプソンのパラドックス
しかし、CP施策と購買双方に影響を与える変数が存在すると話が複雑になります。以下の集計表を見てみましょう。これは上右図のクロス集計表を男性・女性ごとに作成したものです。購買率を比較すると、それぞれの性別でCP施策対象者の購買率が高いことが分かりますがこれは全体の結果と矛盾します。これをシンプソンのパラドックスと言います。
仮の設定として、このCPはポイントバックキャンペーン、対象商材は紳士服小物であったとします。
このケースではCPの対象者の多くは普段よりポイントプログラムに参加している女性が多かったと考えられます。一方でキャンペーン対象商品が紳士用の小物だったため購買率は男性>女性でした。つまり性別が女性であればCP対象者になりやすく、購買しにくくなります。このような場合全体で集計するのではなく、上記集計表のように男性・女性で区分して集計すると正しい結論が得られます。
例のように性別とCP対象かどうかに因果関係が存在しており、また性別と購買にも因果関係がある場合「性別」はCP施策と購買の関係の交絡因子であると言います。交絡因子の存在がパラドックスをひき起こします。そのため正しい介入効果を知るためには性別ごとにCP施策の効果を計量する必要があり、これを層別と言います。
例)シンプソンのパラドックス 肥満児は足が速い?
選択バイアス
では常に層別をすれば正しいかというとそうではありません。これを示す例として選択バイアスというものを紹介します。BtoB向け商材のターゲット戦略を策定したいと考えています。過去の購買データと需要有無のアンケートデータを元に下図のクロス集計表を得ました(実は全体の数値はシンプソンのパラドックスの例と同じ)。縦軸は企業規模を示す売上高であり、横軸はアンケート回答から得た需要有無の調査結果です。これらは上から全体/購買なし/購買ありで層別した集団のクロス集計表です。但し
- 売上高の大きい企業を中心に営業活動をしました。
- 当該商品の需要は売上高には依存しないとされています。
という前提で話を進めます。
全体のクロス集計表からは売上高と需要の相関関係は見て取れません。実務でやりがちなのは購買者のみでクロス集計してしまうことです。購買あり者のみで層別したクロス集計表を見ると、いずれの場合も売上と需要に相関関係があるように見えます(前提に反します)。購買に影響を与えるのは営業行為(つまり売上)と、需要有無ですが、売上が小さい場合、積極的な営業行為がないため強い需要を持つ層のみが購買者に含まれてしまうからこのような結果になってしまいます。購買した顧客のみ/購買しなかった顧客のみそれぞれで分析した場合(つまり購買有無で層別した場合)、本来相関関係がない売上高と需要に相関が発生したことを意味します。
その他の選択バイアスの例として、インターネット上でアンケート調査を行うとネットリテラシーが高い層に回答者が集中してしまうため、ネットリテラシーの高さと回答項目に相関が生じるというものがあります。
因果の設定は調査者が行う必要がある
改めてシンプソンのパラドックスと選択バイアスの2例を比較すると、クロス集計表だけからは両者の違いを判別することは不可能、つまり因果関係を機械的に数値だけから見分けることは不可能であることが分かります。要するに層別して良いかまたはどの変数で層別すべきかは人が定義して決めてあげる必要があるということです。このためにドメイン知識や社会通念上の常識を考慮し調査者自らは因果ダイアグラムを作成する必要があります。左下図はクロス集計表で、双方の違いは分かりません。一方右下図のような因果ダイアグラムを作成すると両者の違いは明確になり、どの変数で層別することで正しく介入効果を計測することできるかが分かります。双方へ矢印が出ている「性別」を交絡と呼ぶのに対して、双方から矢印が入っている「購買」を合流と呼んだりします。
まとめ
- 因果推論はある介入(マーケティングであればCP施策)が反応(マーケティングでは購買やシェアなどの行動)にどれだけ影響を与えるかを測ることである。
- この際これまで見てきたように交絡因子や選択バイアスを考慮した上で、介入の効果を検証する必要がある。
- しかしその前提となる因果ダイアグララムはドメイン知識や社会通念上の常識と照らし合わせて因果を調査者自らが設定する必要がある。
一般的な場合の介入効果計測
前項では交絡因子がある場合に適切な変数で調整(層別)することで正しく介入効果を計測することができると述べました。本節では改めて一般論を展開していきたいと思います。
ランダム化
交絡因子での調整を必要としない強力な手法としてランダム化があります。CP対象者を完全なランダムで選ぶことで、交絡効果をなくします。
- 古典的だが強力な手法です。
- 管理された実験研究では有力です。
- 一方マーケティングではビジネスの制約上完全なランダムは難しい場合が多いです。
交絡因子の調整
前項でも見たように層別での集計を行うことで交絡因子を調整します。また層別にしクロス集計を行う事は、交絡因子を止めた(男性と固定するような)場合の介入効果の購買に与える影響を計測することと同義です。つまり交絡因子と介入変数を説明変数、購買を目的変数として場合の重回帰を行うことと同じです。
従ってランダム化ができない場合、交絡因子を特定しそれらで層別した上で集計を行うか、もしくはそれを説明変数として組み込んだ重回帰を行うことで調整します。
傾向スコアでの調整
交絡因子が多い場合、層別しクロス集計表を作成した場合セルに該当する数値が小さくなりすぎる場合があります。このような場合、交絡因子を1次元の量に縮約した傾向スコアというものを用いて調整する方法があります。Pearlのフレームワークとは異なるRubin流に出てくるツールであるため、次回の最後にご紹介する予定です。
まとめ
- ランダム化ができない場合での調整が必要です。
- 調整は層別・重回帰・傾向スコアで行います。
- 一方でやはり交絡因子を特定する必要があるため。前節で述べた因果ダイアグラムのを人間が作成する必要があります。
次回内容
次回は交絡因子が多数ある場合、それらの中で層別する必要がある最小の変数集合を特定する基準「バックドア基準」を紹介します。さらにこの基準を満たす変数集合と介入変数を説明変数とし、目的変数を効果変数とした重回帰を行った場合に、介入変数の偏回帰係数を介入効果とみなせるという実用上重要な結果について説明します。加えて今回詳細には触れなかった傾向スコアによる調整方法を実例を見ながら解説します。