ふくろうの本棚

ふくろうには似ても似つかない限界独身男性が色んなことを書きます

統計分布を知れば世界が分かる

はじめに:人生に、新書を。

 Twitterで新書が話題になっている。元ツイートは把握できなかったが、「新書を読め!」と問題提起を行った人がいたらしく、その是非について議論が巻き起こっている。「人生に、文学を。」のキャッチコピーで日本文学振興会が炎上したのはもう5年も前のことだったろうか。あれとは発言の主体も違うから比較はできないけれども、こういう強気の問題提起は一部の人の心情を必要以上に逆なでしてしまうようだ。この問題にかこつけて自分の武勇伝を披露したり、「新書よりも学術文庫を読め!」というさらなるマウンティングを被せたりと、いかにもTwitterらしい「議論」が展開されており、苦笑いしながら話題を追っている。

 僕は「新書を読め!」にはおおむね同意である。新書は研究者の研究内容やその道のプロの考え方を短時間で知ることのできる手軽なソースである。早稲田大学教授の石原千秋が書いた『大学生の論文執筆法』にも、

その新書で、月に三冊は専門以外の本を買っておくことを勧めたい。

とある(116ページ)。僕はどちらかと言ったら本を読まない方であるが、AIとか、ブロックチェーンとか、IoTとか、5Gとか、自分の専門分野からは少し離れてしまっているが、それでも重要な技術に関する知識を新書から得ることが多い。その技術の概要を、仕組みそのものだけではなく、筆者の主観を含めた様々な側面から気軽に知ることができる。大学生の論文執筆法 (ちくま新書) | 石原 千秋 |本 | 通販 | Amazon

 一方で、悪い新書、というか読まない方がいい新書も確実に存在する。前掲の『大学生の論文執筆法』にも

ただし、人生論は別だ。あれはオヤジが読む本である。

ただし、僕の場合は、基本的には「です、ます」調で書かれた本は買わない。新書であってもたいていの場合、読者を馬鹿にしている本だからである。

とある(それぞれ116ページと117ページ)。厳しい書きぶりであるが、これもその通りだと思う。僕の場合は、筆者の顔写真がでかでかとカバーに印刷されている新書は避けるようにしている。こういった新書は、よく読んでみると筆者の自慢話に終始しており、読むだけ時間の無駄であったように感じることが多い。

書評:統計分布を知れば世界が分かる

 今回紹介する新書、中央大学名誉教授の松下貢による『統計分布を知れば世界が分かる』もどちらかといったら悪い新書に入るかもしれない。それでも、全体的には優れている部分が多いため、ここで紹介することにした。

統計分布を知れば世界が分かる-身長・体重から格差問題まで (中公新書) | 松下 貢 |本 | 通販 | Amazon

統計分布とは

 この本の主題は「統計分布」である。「統計」とは、身長とか体重とか、ランダムな差があるデータをたくさん集めたときに初めて見えてくるおおまかな傾向のことである。ランダムとは言いつつも、その背後にある仕組みを理解しておきたい時もある。そんな時にはデータをグラフにしてみて、その広がりを眺めてみる。と言うのも、仕組みが違うとデータの広がり方も変わってくるのだ。このデータの広がりのことを「統計分布」と呼ぶ。

正規分布

 身近な例を提示したい。e-Statsというサイトには、政府がとった統計データがアーカイブされている。そこから令和元年度の学校保健統計調査の結果を取得する(学校保健統計調査 | ファイル | 統計データを探す | 政府統計の総合窓口 (e-stat.go.jp))。ここから、17歳男子の身長を棒グラフにして図1に示す(こういったデータの表示形式をヒストグラムと呼ぶ)。横軸は身長であり、170cmの目盛りの棒は、170cm以上から171cm未満の人数を表している。縦軸はパーミルといって、パーセントを10倍にした値である(つまり、10パーミルは1パーセントってこと)。この図からは、データが左右対称なベルみたいな形で広がっていることが分かる。実はこの広がりには正規分布という名前がついている。高校の授業で聞いたことがある人は多いのではないだろうか。僕が正規分布を初めて知ったのも高校の情報の時間だったかと思う。なにがなにやらちんぷんかんぷんであり、教科書の巻末の標準正規分布数表も相まって、恐ろしいものを教えられている気分になった。

f:id:piroshiki_1212:20210214205532p:plain

図1. 令和元年度における17歳男子の身長の分布

 さすがに高校で習うだけあって、正規分布は色んなところに登場する。例えば、製品のサイズのばらつきも正規分布に従うことが多く、その広がりから致命的な誤りの確率を見積もれたりする。しかしながら、自然界は複雑であり、現象のメカニズムも多様である。つまり、正規分布だけでは自然界を説明しきることはできない。正規分布以外にも様々な分布が必要になる、ということだ。

指数分布と対数正規分布

 『統計分布を知れば世界が分かる』の特徴は、正規分布以外の重要な分布である、指数分布と対数正規分布を紹介していることにある。これらは重要であるが、正規分布に比べればずっとマイナーである。指数分布は、左右対称な正規分布と違って、右肩下がりで確率が小さくなっていくような分布である。指数分布に従う現象の例は地震である。図2に震度データベース検索(震度データベース検索 (jma.go.jp))から取得した、2011年2月12日から2021年2月10日の10年間に渡る震度のヒストグラムを示す。震度1地震は10年間で21000回も起きているが、震度7になると4回しか起きていない(この中には311の地震も含まれているが、2月13日の夜に福島沖で起きた震度6強地震は含まれていない。)。そして、ヒストグラムの減少はきれいに直線的である。これは対数表記をしているからで、真数表記にすると指数関数的に減少する様子が見られるだろう。このように、地震の規模が大きくなるほどその発生確率が減少するという法則は、グーテンベルグ・リヒター則と呼ばれる(グーテンベルグ・リヒター則 - Wikipedia)。

f:id:piroshiki_1212:20210214205826p:plain

図2. 2011年2月12日から2021年2月10日までに日本で起きた地震の震度の分布

一方で、対数正規分布正規分布をぐぐっと左側に傾けたような形になっており、小さい値の確率が比較的に高くなっている。この分布に従う例としては体重がある。さきほどの学校保健統計調査から、今度は17歳男子の体重をヒストグラムにしてみる。結果は、下は40kgぐらい、ピークは60kgぐらいにあるが、上は80kgを優に超えて120kgまでに及ぶ。確かに、身長と違って、体重は天井知らずであり、たまに体重数百キロの人がニュースに出たりするよなぁ、なんてことを思い返すと、これも納得である。

f:id:piroshiki_1212:20210214210052p:plain

図3. 令和元年度における17歳男子の体重の分布

参考になった点:統計分布を眺めると何が分かるか

 『統計分布を知れば世界が分かる』では、この重要であるがマイナーな二つの分布にスポットライトを当てて、これらの分布に従う現象をいくつも紹介する。数学書にありがちな小難しい数式はほとんど出てこないよう試みられており、その説明は直感的かつわかりやすい。また、データが統計分布にきれいに従わないケースについても解釈と説明を丁寧に行っている。例えば高齢者の介護期間の統計は一見正規分布に従うように見えるが、実際には対数正規分布に従っている。高齢化による死亡率の増加というファクターによってピークがずれているから見誤ってしまう。このことをゴンペルツ則という(ゴンペルツ関数 - Wikipedia)。この事実を示すためにデータの表示方法を変えてみたり、医療向上に伴う寿命増加によりこのゴンペルツ則の影響がどう変化するかを予測したりと、統計分布からこれだけのことができるのかと、目からうろこが落ちた思いであった。機会があれば自分でも試してみたいものである。

個人的に残念だった点:政治的批判への飛躍

 以上がこの本の良い点であるが、筆者の思想が必要以上に現れるのはこの本の悪い点である。特に第6章からその傾向が顕著になる。この章ではGDPや都市人口の分布を見ていくが、そこから格差や国の政策への批判へと論旨が飛躍する。GDPが大きく躍進している中国は基礎科学にも力を入れている一方で、日本では

すぐにもうかりそうな科学・技術へのバラマキ的な援助は惜しまないのに、分野を問わず基礎的な研究への補助は貧弱そのもので多くの大学は人員削減を迫られていて現状維持も難しく、疲弊している。

と指摘する(118ページ)。そして、

このような現状分析から提言できることは明らかで、基礎的な科学・技術の発展に援助を惜しまないことである。

と結論する(118ページ)。これは、一見すると科学者らしい提言であるが、しかしとても近視眼的であるようにも感じる。技術を製品化にもっていくには、それこそ莫大な資金が必要となるから、応用研究の現場だって疲弊していて、援助が喉から手が出るほど欲しいのだ。応用に後れを取り、中国に知財をなめられてしまうと、基礎研究がいくら充実したとしても日本製のものが何も作れなくなってしまう。著名な先生方には、自分のフィールドだけでモノを語ろうとせずに、応用があってこその基礎であることを念頭においていただいた上で批判をしていただきたいと常々感じている。

 この論調は『おわりに』で最高潮を迎える。ここでは、もはや統計分布に関する記述はほとんど見られない。

私たちの生活に基本的に必要なものを社会的共通資本とし、市場経済になじまないものとする考えは、今後いっそう重要性を増すであろう。

という最後の文章は象徴的である(147ページ、強調部分は原文ママ)。この本は統計分布に関する本であるので、統計分布を知ること、そしてそこから背後のメカニズムを知ることの重要性や面白さで締めてもらいたかった。

おわりに:統計分布を読め!

 まとめると、本書は、統計分布という、何やら恐ろしいものに高校時代や大学時代に敗北してしまい、それに対してリベンジをしたいという方にはとてもお勧めできる。しかし、筆者の思想に押しつけがましさや退屈さを感じてしまう部分もあるかもしれない。ただ、個人的にはこういう当たりはずれもあるのが、新書を読んでいく上での楽しみであるかなぁとも思ったりはする。