コラム
どっちのLPが効果的?簡単にカイ二乗検定を計算するExcel関数
インターネット広告で問い合わせの獲得、購入の促進など、広告からのダイレクトレスポンスを目的とする手法はさまざま取り上げられてきましたが、その中でも、ランディングページ(LP)を利用した広告配信は、今でもよく取り入れられている手法です。
複数パターンのランディングページを準備し、均等に広告を配信することで、どちらのランディングページが効率的かを判定します。
改善を繰り返すことで、継続的に広告からの問い合わせ効率を上げていくことができます。
そこで、よく課題になるのが、一定期間の均等配信をして見たところ、数件コンバージョンが上がったが、それをそのまま信用してアクションしてよいのかどうか。という点です。
経験の多いマーケターは、その少ないデータを鵜呑みにしてはいけない感覚を持っていますが、専門でない広告主はその数字が、そのクリエイティブの信者にさせてしまうひとつの要因になります。
つまり、誤差を誤差と見破れないことで、より多くの損失を出しかねない状況になってしまうのです。
今回は、テストの結果からえられる差をより正確に判定するための手法として、カイ二乗検定を用いた手法を紹介したいと思います。Excelの関数を利用して簡単に判定することができるので、ぜひ参考にしてみてください。
統計学はとても深く難しい学問ですので、あくまで統計学の1ユーザとしてExcelでできる検証方法に限定してご紹介したいと思います。Excelで計算するために必要のない、統計学上の言葉の意味の説明はここでは割愛します。
こんな計算をしてこんな数字が出たらこの数字信じてもいいかもね。というぐらいの感覚で使ってみてください。
今回は、弊社のとあるリスティング広告運用案件で得られた数値をそのまま使用してみたいと思います。
実際の数値は以下です。
ご自身のテストされた数値を表①のような表にまとめてみてください。
表① | LP A | LP B | LP C |
セッション数 | 1,123 | 1,109 | 1,124 |
フォームセッション数 | 63 | 52 | 43 |
フォーム誘導率 | 5.6% | 4.7% | 3.8% |
ランディングページ(以降 LP)を3パターン制作しましたが、AとBはコピーの違い、AとCは画像の違いの差を付けたので、A vs BとA vs Cの誘導率の比較をし、コピーと画像、どちらの要素に有効差があるのかをテストします。
まず、配信して得られたデータからその後の結果を推測することは、部分的なデータから母集団を推測することに捉えることができます。
この部分的なデータから母集団を推測することを統計学では検定と呼びます。
そして、「クロス集計表における2変数に関係があるかどうか」を検定する手法に、χ二乗(カイジジョウ)検定という検定手法があります。
例えば、今回のLP AとLP Bの比較の事例であれば、実測値を以下のような2変数のクロス集計表にし、「フォーム到達有無はLPの違いに関係があるのか」を検定することができます。
表①を以下のような表②に書き換えてみてください。
セッション数からフォームセッション数(=フォームに到達したセッション数)を引けば、フォームに到達しなかったセッション数が出ますよね。
表②実測値 | LP A | LP B | 合計 |
フォーム到達しなかったセッション数 | 1,060 | 1,057 | 2,117 |
フォーム到達したセッション数 | 63 | 52 | 115 |
合計 | 1,123 | 1,109 | 2,232 |
検定の手順に従うと、以下のようになります。
あたまが混乱するので読み飛ばしてOKです。
- 母集団を定義する。
広告を掲載しているキーワード検索をしているユーザを母集団と定義。 - 帰無仮説を立てる。
「フォームの到達有無はLPの違いに関係しない」という帰無仮説。 - 検定の種類を選定する。
独立性の検定 - 優位水準を定義
05と定義する。 - 理論値を算出する。(後述)
- p値を算出する。
エクセルのTEST関数を利用。 - p値と優位水準を比較
p値が05以下であれば帰無仮説を棄却し、対立仮説が採択される。
具体的な検定方法は、エクセルでp値を計算し、優位水準以下かどうかを調べます。
まず、理論値を計算します。理論値とは「LP AとLP Bでフォーム到達有無に関係がない」と仮定すると、どのような数字になるかを示したものです。つまり、関係がないとするなら、「LPの誘導率は同じはず」なので、合計値をそのままにフォーム誘導率を同一にするような訪問数を計算します。
グレー塗りは表②を転記、赤は以下の計算式で計算します。
LP Aのフォームに到達しなかったセッション数(理論値)
= LP Aの合計値 × ( フォームに到達しなかったセッション数の合計/合計セッション数)
LP Bのフォームに到達しなかったセッション数(理論値)
= LP Bの合計値 × ( フォームに到達しなかったセッション数の合計/合計セッション数)
LP Aのフォームに到達したセッション数(理論値)
= LP Aの合計値 × ( フォームに到達したセッション数の合計/合計セッション数)
LP Bのフォームに到達したセッション数(理論値)
= LP Bの合計値 × ( フォームに到達したセッション数の合計/合計セッション数)
表③理論値 | LP A | LP B | 合計 |
フォーム到達しなかったセッション数 | 1,065 | 1,052 | 2,117 |
フォーム到達したセッション数 | 58 | 57 | 115 |
合計 | 1,123 | 1,109 | 2,232 |
この実測値の緑の範囲と理論値の赤の範囲を、エクセルのCHISQ.TEST関数で指定します。
関数:=CHISQ.TEST(緑の範囲,赤の範囲)
この関数で算出したp値は以下になります。
CHISQ.TESTのp値 | 結論 | |
LP AとLP Bの比較 | 0.325 | 「フォームの到達有無はLPの違いに関係しない」という帰無仮説は棄却できない。 つまり、 LP A と LP Bの実力差は誤差の可能性が高い |
LP AとLP Cの比較 | 0.046 | 「フォームの到達有無はLPの違いに関係する」という対立仮説は正しい。 つまり、 LP A と LP Cの実力差は誤差でなく本当に差がありそうだ |
LP AとLP Bの比較では0.325 > 0.05となったため、優位水準5%で「帰無仮説が誤っているとは言えない」と判定できます。一方、LP AとLP Cの比較では0.046 < 0.05となったため、優位水準5%で帰無仮説は棄却でき、「フォーム到達有無はLPの違いに関係する」という対立仮説が採択されます。
つまり、誘導率の差はLP AとLP Bで0.9%、LP AとLP Cで1.8%だったわけですが、このわずかな差を、統計解析を用いた検定を行っていれば、これほど明確な差として見ることができるということです。
<参考図書>
※羽山博・できるシリーズ編集部(2015)『やさしく学ぶExcel統計入門』 株式会社インプレス
※西内啓(2013)『統計学が最強の学問である』ダイヤモンド社