なぜ“風が吹けば桶屋が儲かる”のか?「相関」と「因果」の関係を正しく理解

さまざまな情報を分析する際に意識すべきことのひとつに、「データとデータの関連性」があります。そのデータの間に横たわるのは「因果」なのか「相関」なのか?言葉は似ていますが、まったく別物。正しく理解してデータ分析の基礎を学びましょう。

さまざまな情報を分析する際に意識すべきことのひとつに、「データとデータの関連性」があります。データとデータの間にあるのは「相関」なのか「因果」なのか? 関連性を正しく理解することでデータ分析の基礎を学びましょう。

「相関関係」と「因果関係」の違い

相関関係とは、関連する2つの事柄のうち、一方が変化すれば、他方も変化するという関連性をいいます。数学の場合は、ひとつの変数が増えてもう一方の変数も増えたら「正の相関」、反対に2つの値が両方とも減少したら「負の相関」といいます。
これに対して因果関係とは、一方の事柄が原因で他方が結果となる関係です。「AだからBとなる」といえる事象は因果関係になります。

ことわざからみる具体的事例

相関関係と因果関係についてよくみられる混同例としては、本当は「因果関係(原因と結果)」なのに「相関関係(常に関連する関係)」だと思い込んでしまう場合があります。たとえば、よく知られている日本のことわざで、「風が吹けば、桶屋が儲かる」があります。これは「因果関係」でしょうか?「相関関係」でしょうか?

「風が吹けば、桶屋が儲かる」は下記の順序で話が展開していきます。
  • 突風で砂ぼこりが立つ
  • 砂ぼこりが目に入り、視力を失う人が増える
  • 三味線を買う人が増える(※江戸時代では、三味線弾きは視覚障がい者の代表的な職業でした)
  • 三味線の皮の材料として猫の皮が必要になり、猫が捕獲される
  • 猫が減るとねずみが増える
  • ねずみが増えて、かじられる桶が増える
  • 桶の修繕や買い換え需要が増え、桶屋が儲かる

この事象は「因果関係」といわれます。ただし、「視覚を失うほどの突風が吹いているのに、何の対策もせずに外を出歩く人はどれくらいいるのか」「視覚障がい者となった人の全員が三味線弾きを選ぶのか」とひとつひとつの事象について突きつめて考えていくと、1~7に至る実際の因果関係は限りなく低い可能性があります。

そのため、最近ではこの有名なことわざも「可能性の低い因果関係を無理矢理つなげたこじつけの理論」という指摘もあるようです。

このほか、たとえば、「英語力が高い社員ほど、仕事の習熟度が高い」というデータがあったとします。この場合「仕事の習熟度が高いほど、英語力が高い」とはいい切れませんね。このように、因果関係の場合は必ずしも「AだからBとなる」事象に対して「BだからAとなる」といえないことがあるのです。

バイアスをかけすぎると結果を見誤ることも

強い相関関係があると、つい因果関係に結びつけたくなりますが、単なる偶然や疑似相関の場合もあります。 疑似相関とは、「因果関係のない2つの事象であるにもかかわらず、見えない要因が作用して因果関係があるかのように推測されてしまうこと」をいいます。たとえば、「購入者の○○%が満足しています!」という宣伝文句があったとします。満足度を示す数値の出典は、企業が独自に実施した過去の購入者へのアンケートです。こうしたアンケートは多くの場合、何回も購入しているリピーターを対象に実施されています。何回も購入しているということは、商品に満足している可能性が高く、データ上の満足度も高い数字が出るからです。つまり、製品を購入した人全体の○○%の人すべてが、必ずしも満足するとはいえません。「○○%」には、「購入回数」という別の因子も絡んでいるのです。

偶然にすぎない事象に対し「こうであるに違いない」と先入観によるバイアスがかかりすぎると、結果を見誤ることもあるので注意が必要です。また、他者のデータを見るときも、上記の例のようにあらかじめ絞り込まれた母集団が調査対象になっている場合もあるので、注意しましょう。
「原因」と「結果」だけを見てしまうと、あたかも強い関連性があると錯覚してしまうことがあります。さまざまな内外要因が複雑に絡み合う現代のビジネスにおいて、この判断を見誤るのは致命的です。しっかりと“事実”に基づいたデータを分析し、“真実”を見抜く習慣をつけましょう。