10 社会調査

ここまで、確率の概念的基礎づけや統計的推論について考えてきました。ここで、そもそもデータをどう収集するか、という統計分析の第一歩に立ち返りたいと思います。実際の社会経済現象を把握するためには、このデータ収集こそが肝要であり、地道な・地味な作業が求められます。調査から得られる数字を「追う」のではなく、その背後にある統計の標本の定義、標本数、回収率、質問の詳細などを「読んで」こそ、その数字を適切に解釈できると言えるでしょう。

  1. 調査統計の色々*
  2. 欠測値をどう扱うか*
  3. 答えづらい質問への正直な答えをどう引き出すか

1. 調査統計の色々

要点

  • 調査統計には「全数調査」と「標本調査」があり、「全数調査」にかかる費用が大きくなりすぎるとき、その対象母集団の「縮図」となるような「標本調査」を行う

  • 今日の公的統計においては無作為抽出法が標準的であり、単純無作為法のみでなく、「ばらつき」が大きくなるという弱点を補うために多段抽出法や層別抽出法が用いられる

  • 調査にともなう誤差として、標本誤差のみでなく、以下のような非標本誤差がある

    1. 単純ミス

    2. 無回答

    3. 回答の偽り

  • 非標本誤差が時間を通じて一定だと仮定して、「繰り返し横断調査」や「縦断調査」(パネル調査)などを用いて、時系列の変化を使うことが有効である


2. 欠測値をどう扱うか

要点

  • 欠測値のあるデータを削除をしてしまうことがよくあるが、欠測がランダムでない限り、適切な対応ではない
  • 「ないデータをつくることはできない」が、以下のような対応ができる
    • 妥当だと思える回答を代入する
    • 変数の変域が有限の場合、その上限・下限を代入し、「一番大きくて…」「一番小さくて…」というような値の取り得る幅を推定できる

3. 答えづらい質問への正直な答えをどう引き出すか

要点

  • 回答者が他の人から好意的に見られるように答えることを「社会的望ましさバイアス」と言う
  • このバイアスを完全に除去できないが、「ノイズを加える」ことによって、軽減できる
    • 本人ではなく、身近な人について聞く
    • 回答をランダム化する(選択肢のリストのランダム化、回答に乱数を加える、など)

参考図書・文献

佐藤明彦 『数字を追うな 統計を読め データを読み解く力をつける』 日本経済新聞出版社、2013年

東京大学教養学部統計学教室 『基礎統計学II 人文・社会科学の統計学』東京大学出版会、1994年

高井啓二、星野崇宏、野間久史 『欠測データの統計科学 医学と社会科学への応用 調査観察データ解析の実際1』岩波書店、2016年

宮川公男 『統計学の日本史 治国経世への願い』東京大学出版会、2017年

ゲアリー・スミス 『データは騙る 改竄・捏造・不正を見抜く統計学』川添節子訳、早川書房、2019年

Julian C. Jamison, Dean Karlan and Pia Raffler, “Mixed-Method Evaluation of a Passive mHealth Sexual Information Texting Service in Uganda” 2013. Information Technologies and International Development