統計学
2-1,2平均的な数を推定する
例えば、お店で作られるポテトの数を知りたいとする。このとき、お店で作られているすべてのポテトのことを母集団と呼ぶ。しかし、大抵の場合、数が多すぎるので母集団からいくつかのデータをとっておく。このことを抽出(サンプリング)と呼ぶ。また、母集団から抽出されたデータを標本と呼ぶ。標本の中のデータの数をサンプルサイズあるいは標本の大きさと呼ぶ。標本を抽出するときは無作為が大事になってくる。
この無作為抽出を何度も繰り返して標本を作る。そして、標本の平均と分散を作る。
母集団 標本1 標本平均1 標本分散1
標本2 標本平均2 標本分散2
標本3 標本平均3 標本分散3
標本平均を平均していくと、数学的に母集団の平均(母平均)に等しくなる。
しかし、標本分散の平均は母分散とは等しくならず、少し小さい値になる。
標本分散の平均と母分散のズレを埋めるために、母分散の推定値として不偏分散がある
不偏分散 = ((データ - 平均値)**2) ÷ (サンプルサイズ - 1)
2-3 区画推定と信頼推定
標本平均はあくまでも推定値。サンプルサイズが大きければ母集団平均に近くなる。
でも、サンプルサイズを大きくするのはあまりにも大変。その時に使うのが区間推定
区間推定…標本から推定すると、母平均はこの値からこの値までの間に入るという形で推定すること
信頼区間…母平均が含まれるような範囲。主に95%信頼区間と99%信頼区間がある
信頼区間の求め方
標本平均の分散=(母分散÷サンプルサイズ)
=(不偏分散÷サンプルサイズ)
標本平均保標準偏差(標準誤差)=√不偏分散÷サンプルサイズ
信頼区間=標本平均±t*標準誤差(tはt分布をつかう)