13 モデルの適合度と複雑性

科学的推論の手法として、データ生成過程についての理論・仮定をおき、確率論にもとづいて望ましい性質を持つパラメータ推定について学んできました。ここでは、分析できるデータの拡充を背景として発展してきた、特定の理論を想定しない手法群を紹介します。これらは、理論に対応するパラメータを推定するのではなく、モデルによってデータを「説明」・「予測」することを目的としていて、具体的なアルゴリズムの発明を通じて、発展してきました。

モデルの適合と複雑性

適合度の分解と複雑性の最適化

情報量とモデル適合度の尺度

再標本抽出法とモデル適合度の測定

1. モデルの適合と複雑性

要点

データの生成過程のパラメータ推定ではなく、モデルをデータに適合し、予測に役立てることを目的とする実用的手法群がある
1. ノン・パラメトリック推定 … 誤った仮定に依存しないために、特定の分布への仮定に依存しないモデル
2. 機械学習 … 画像、音声、テキストなどのデジタル・フットプリント(『ビッグ・データ』)を、計算能力を駆使するアルゴリズム的手法として発展
理論・慣習によってモデルが与えられないため、「複雑性」と「精度」のバランスを取るように選ぶ
- 予測可能性と精度のトレード・オフ… より複雑なモデル群ほど、解釈・説明が難しいが、予測精度が高い。
アンサンブル法 … 「全てのモデルは間違っているから、組み合わせる」異なるモデルを組み合わせる「集合知」により、よりよい予測精度を達成できる

2. 適合度の分解と「複雑性」の最適化

要点

データには、「シグナル」と「ノイズ」があり、推定値$\hat{f}(X_i)$を$f(X_i)$に近づけたいが、$\varepsilon_i$には近づけたくない \[ \underset{観測値}{\underbrace{Y_{i}}}=\underset{シグナル}{\underbrace{f(X_{i})}}+\underset{ノイズ}{\underbrace{\varepsilon_{i}}} \]
予測誤差は、「バイアス」2乗、「バリアンス」、「低減できないエラー」に分解できる $$
\[\begin{aligned} \mathbb{E}(Y-\hat{f}(X))^{2} & =\mathbb{E}(f(X)+\varepsilon-\hat{f}(X))^{2}\\ & =\underset{=Bias^{2}}{\underbrace{(\mathbb{E}\hat{f}(X)-f(X))^{2}}}+\underset{=Var}{\underbrace{Var(\hat{f}(X))}}+\underset{=IrreducibleError}{\underbrace{Var(\varepsilon)}} \end{aligned}\]
$$
(複雑性が相対的に低いとき) 過剰適合 (overfit)… モデルの「複雑さ」が増えると、バイアスは低いが、「未知のデータ」でのバリアンスが大きくなってしまう。よって、最適な「複雑さ」を選ぶには、適度にバイアスを含めなくてはいけない (!)
(複雑性が相対的にとても高いとき) 二重降下 (double descent)… モデルの「複雑さ」が増えると、「ブレ」が少ないモデルに近づく

訂正: 「複雑性」は「自由度」ではなく、言うなれば、「サンプル数ー自由度」である

3. 情報量とモデル適合度の尺度

要点

シャノン情報量($S$) … 「情報とは、不確実性の解決である」 \[ \mathbb{E}S = - \mathbb{E} \log \mathbb{P}(E) \] (注意: ただし、これらの尺度が「情報の有用性」を反映しているとは限らない)
パラメータの数$k$のモデル複雑性を考慮した適合度の尺度として、調整済み$R^2$に加え、情報量規準(Information Criterion)がある \[ \underset{=未知のデータでの誤差}{\underbrace{-\mathbb{E}^{X}\ln f\left(X\right)}}=\underset{=既知のデータでの誤差}{\underbrace{-\sum_{i=1}^{N}\frac{\ln f\left(X_{i}\right)}{N}}}+\underset{=罰則項}{\underbrace{k\frac{c_{n}}{N}}} \] 赤池情報量規準(Akaike Information Criterion)の場合は、$c_n = 1$であり、ベイズ情報量規準(Bayes Information Criterion)の場合は、$c_n = \ln N$である

(補足訂正: 「情報量基準」は「情報量規準」と書くことが多い)

4. 再標本抽出法とモデル適合度の測定

要点

モデル適合度を測定するために、ランダムさを加えることが効果的となりうる(!)
ブートストラップ法(Bootstrap) … 標本集団から、重複を許して同じ標本数をランダムに再標本抽出し、それらのデータで統計量を推定することで、統計量の分布を推定する方法
交差検証法(Cross Validation) … 標本データを訓練集合(training set)と検証集合(testing set)にランダムに分割し、訓練集合を用いてパラメータを推定し、検証集合を用いてそのモデルの「未知のデータ」に対する適合度を測定すること

参考文献

Sendhil Mullainathan and Jann Spiess. 2017. ”Machine Learning: An Applied Econometric Approach.” Journal of Economic Perspectives.

Hal Varian. 2014. “Big Data: New Tricks for Econometrics.” Journal of Economic Perspectives.

Susan Athey and Guido Imbens. “Machine Learning Methods That Economists Should Know About” 2019. Annual Review of Economics.

Leo Breiman “Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)” 2001. Statistical Science.

Stuart Geman, Elie Bienenstock, Rene Doursat “Neural Networks and the Bias/Variance Dilemma” 1992. Neural Computation.

Mikhail Belkin, Daniel Hsu, Siyuan Ma, Soumik Mandal “Reconciling modern machine-learning practice and the classical bias–variance trade-off” 2019, PNAS.

Bradley Efron, Trevor Hastie 『大規模計算時代の統計推論―原理と発展― (Computer Age Statistical Inference: Algorithms, Evidence, and Data Science)』藤澤洋徳・井手剛監訳・井尻善久・井手剛・牛久祥孝・梅津佑太・大塚琢馬・尾林慶一・川野秀一・田栗正隆・竹内孝・橋本敦史・藤澤洋徳・矢野恵佑訳 2020. 共立出版

ショーン・ジェリッシュ『スマートマシンはこうして思考する』(How Smart Machines Think) 依田光江訳、みすず書房、2020年

大坪直樹、中江俊博、深沢祐太、豊岡祥、坂元哲平、佐藤誠、五十嵐健太、市原大暉、堀内新吾『XAI (説明可能なAI) そのとき人工知能はどう考えたのか？』リックテレコム、2021年

加藤公一、秋庭伸也、杉山阿聖、寺田学『機械学習図鑑　見て試してわかる機械学習アルゴリズムの仕組み』翔泳社、2019年