食料自給率という社会科のデータを情報科学する

もう20年ブログを綴っているが、だいたい格闘ゲームの話とトレカの話。俺の専門は情報科学だがそれを何の役に立てて良いのか分からない。そんな時に苦手な社会科をおさらいしたら何かになるかなと思ったんだけど。

手元にあった「理解しやすい地理B ISBN 978-4-578-24104-1」の参考書367ページから日本の1960年から2005年までの食料自給率の表をエクセルに書き写してみた。平均と備考は自分で加えたもの。

f:id:karmen:20200510132746p:plain

f:id:karmen:20200510103133p:plain

理解しやすい地理B (改訂版)

こうして見てみると自給率の平均値と供給熱量に差があることが分かる。恐らくだが、野菜と肉類では熱量に差があるので、それぞれ熱量の係数を掛けてから合算しているのだろうけど、教科書に帳票を載せて、しかし計算式を示さないで参考資料として付随してあるものを自分で打ち直してみるとちょっと違うものが見えてくる。

情報科学も対象データの回帰分析など、数学的な関数にデータがハマるかという捉え方をするんだけど、教科書から年表を引っ張ってくると1980年の牛肉・オレンジの自由化や1995年の新食糧法制定という政治的要因で数字が大きく動いている。

これは中谷宇吉郎の「科学の方法」の末筆「茶碗の曲線」の項で示されていることなのだが、考古学をしている人が出土した土器の側面の曲線を関数の曲線との一致率で分類できないかと試みたことの愚かさを冗談を交えて皮肉っている。エクセル表があると情報科学で相関関係を読み解きたくなあるのだが、反対に特異な変量を見つけたら、そこに外的要因がある可能性が高い。

科学の方法 (岩波新書 青版 313)

それだけでは役に立たない部分もあるかもだが、数字ばっかり見ていると変量の異変に気付く眼力だけはどうにか備わっているようで、社会科と両輪合わせていけば何か役に立つかも。

まあ、昨年あたりに流行った「ビッグデータ」は政府機関や企業が持っているデータベースを全部ひっくるめて情報科学の数式にはめてみるくらい、コンピュータのネットワーク化とスペックが揃ってきてますよということなんですが、俺の自宅ではまだ高校の参考書を手打ちで入力するレベルなのであります。しかし同級生でもコンピュータが好きな割に数学とか理科より社会科の好きなタイプがいて、使い方としては地道なエクセル入力。重回帰分析を覚える前にに単回帰分析で何もハマらない変量を見つけたら、外的要因がないか別の勉強をしてみるのも良いのかも知れません。

最近は情報科学が進歩していて、あるグラフを何らかの数式に当てはめようとするとコンピュータがピタッと合う数式を打ち出してしまうんですよね。では、その数式が今までの統計とピタッと合うからといって、未来永劫その数式通りに物事が進むかというとそういうわけではない。もっとシンプルな関数にハマるかどうかを見て、ハマらなくなる点を見つけたら、それに対してどんな数式がハマるか計算項目外のデータも照らし合わせる必要が出てきます。それを重回帰分析と言ってしまうのは多分ちょっと乱暴で、回帰分析によって特異点が見つかったと考えるべきではないでしょうか。

Vector | |