情報を網羅するやり方が効率のいい方法とは言えない理由

受験勉強でも、就活でも、筋トレでも、ビジネスでも何についても言える話なのですが、なにかを新しく始めようというとき、「あらゆる情報を網羅して一度で最も効率的な正しい方法に辿り着こう」とする人がいます。

かつての僕がそうでしたし、そういう考え方の人は僕以外にもたくさんいるように思います。

でも、こういった情報を網羅するやり方は、あまり賢い方法とは言えません。

それよりも少し足りないくらいの情報から仮説を立てて実行に移し、仮説を検証して改善していく方法を取ったほうがイチバン効率がいいんですよね。

以下では、その理由について僕なりに述べていこうと思います。

ちなみに、数式みたいな表現を用いていきますが、これはあくまで「そのほうがわかりやすいかな?」と思ったからです。

数式を使うと「なんかものすごい科学的に証明された話なのかな?」と感じる人も(もしかしたら)いるかもしれませんが、ここで話すことについては厳密なことは一つもありません。

なんとなーくの話なので、そこは勘違いのないようにお願いします^^;

それでは、情報を網羅するやり方が上手くいかない理由を説明していきます。

例えば、ある意思決定を行ったとして、その判断が期待通りの結果を生む確率を$p$とおきましょう。

で、この場合、本来なら「どのようなプロセスを経て判断を下すのか?」という問題はとても大切だと思いますが、ここではどのように判断を下すかは脇において、正しい判断に必要な情報だけに注目することにします。

その正しい判断に必要な情報のうち、自分で調べたり他人に聞くなどしてアクセス可能なものを$x$、自分ではどうやっても知り得ないアクセス不可能な情報を$y$とすると、意思決定の精度である$p$について、

$$ p(x ; y) = 1 $$

と表現できると考えることにしましょう。

これはつまり神様のような視点に立って、自分で知り得る情報$x$だけでなく、自分じゃ知り得ない情報$y$という、いわばありとあらゆる情報にアクセスできれば100%正しい判断を下せるはずだと考えたいわけですね。

ただ、もっと厳密に言うと、判断に必要な情報というのは$x,y$のようなそれぞれ一つの変数で表せるものではなく、$x = x(x_0, x_1, …, x_{n-1} ), y = y( y_0, y_1, … , y_{m-1} )$みたいな複数の情報の組であるべきです。

というのも、例えば、もし仮に体温が38度だったとして、それだけで「自分が風邪である」なんて判断するわけじゃないですよね。

そうではなくて、身体のダルさであったり、食欲であったり、ここ数日の体調などの複数の情報を頭に入れて判断を行うと思います。

間違っても体温計の数字だけで判断を下すわけにはいきません。だって、体温計が壊れている可能性だってあるわけですから。

というわけで、それら複数の情報の組を考慮すると、さっきの式は、

$$ p(x_0, x_1, …, x_{n-1}; y_0, y_1, … , y_{m-1}) = 1$$

というふうに書き直すことができます。

これは言い換えれば、$p=1$を実現するのに必要な最小限の情報を準備しようとしたら、$x$については$n$個、$y$については$m$個の情報が必要になった…というイメージです。

さて、以上が100%正しい意思決定を行うための情報収集モデルです。

ただ、これらのモデルを実現するには明らかに問題があって、それは、

  1. そもそも$y( y_0, y_1, … , y_{m-1} )$について僕らはアクセスできない
  2. アクセス可能な$x(x_0, x_1, …, x_{n-1} )$についても情報収集のコストが高すぎる
  3. それらのコストを払って情報$x(x_0, x_1, …, x_{n-1} )$を得たとしても情報を処理するコストが高すぎる

というものです。

なので、結論をいえば網羅的なやり方が通用するのは、$n$が3~7くらいで$m=0$という極めて特殊な系に限った話なんですよね。

僕らが現実で扱う系というのは、$n,m$のそれぞれが100とか200とか、それくらいたくさんあるんじゃないでしょうか(すごいテキトーな感覚で言ってますが)。

そんなわけで、正しい判断をするために、網羅的に情報を集めるというのは、あまり賢いやり方ではありません。

というか、そもそもコストが掛かりすぎて、何も前に進まないと思います。

では、網羅するのでなければ、どのようにすればいいのか。

それは、$x_0, x_1, …, x_{n-1}$のうち、正しい判断に極めて支配的な影響力を持つ少数の情報のみを扱って、確率的な意思決定を何度か繰り返して正解を引き当てるのです。

どういうことかというと、例えば、

$$p(x_0,x_1,x_2) \simeq \frac{1}{2} $$

みたいな条件を満たす$x_0,x_1,x_2$ が存在するってことです。

この場合、その少数の重要な情報が$x_0,x_1,x_2$だということになりますね。

で、これくらいの精度でもって、コイントスを繰り返していくのです。

$\frac{1}{2}$の確率であれば、3回やれば少なくとも1度正解する確率は87.5%、4回やれば93.75%です。

確実とは言えないけれど、それなりに高い確率で成功することができますよね。

それに、この方法であれば、さきほどの問題点をすべてクリアできています。

というわけで、まとめると「なにかで成功したい」「効率よく結果を出したい」と思ったとき、情報を網羅するのは賢い方法ではありません。

その理由は、

  1. アクセス不可能な情報が予測の正誤に多大な影響を与えている
  2. アクセス可能な情報でさえすべて集めようと思ったらものすごいコストがかかる
  3. 集めた情報を正しく処理するのにものすごいコストがかかる

という部分にあります。

では、どうすればいいかというと、少数の情報から仮説を立てて、成功と失敗のコイントスを複数回繰り返すこと…ですね。

まあ、ここだけ書けば済む話だったかもしれませんが、僕はこんなかんじでモデル化して考えましたよってかんじになります。

sponsored link