datascience

VAR.S関数について①

投稿日:


今日のお題:VAR.S関数とは?

今回は不偏分散である「VAR・S関数」について紹介します。

スポンサーリンク




標本分散の説明と算出式

まず前回説明した標本分散とは指定した数値を母集団そのものとして計算する分散です。これは全ての母集団から無作為に標本(一部)を抽出して得て、それらすべてのデータを使った分散のことです。その分散で母分散を推定します。

$$標本分散の算出式は一般的に\hat{ σ }^2と表し、
\hat{ σ }^2=\frac{1}{n}\displaystyle \sum_{ i = 1 }^{ n } ({ x}_i-\overline{x})^2と導き出せます。$$

不偏分散とは

 不偏分散とは標本の属する母集団について、その分散の推定値を表す分散です。先ほど説明した標本分散の算出式にn/(n-1)をかけたものです。

一般的にs²と表し、以下の式から算出します。

$$s²=\color{red}{\frac{n}{n-1}}×\frac{ 1 }{ n }\sum_{ i = 1 }^{ n } ({ x}_i-\overline{x})^2=\frac{ 1 }{ n-1 }\sum_{ i = 1 }^{ n } ({ x}_i-\overline{x})^2$$

不偏分散はなぜn-1で割るのか?

そもそもなぜ普通の分散はnで割るのに、不偏分散はなぜn-1で割るのでしょうか。

まず、分散というものは平均からどの程度散らばっているかを表す指標を言います。

例題を見てみましょう。

例えば、120㎝、140㎝、160㎝の3人は136㎝、140㎝、144㎝の3人よりも分散が大きくなります。

日本人全員の身長の分散といった例では、全員の平均値を出してそれぞれの人の身長から平均値を引いた数の二乗を日本人全員で合計したものを人口で割った数になります。

しかし、日本人全員というのは莫大な数になるので、測定が不可能に近いです。そこで一部の人たち(標本)だけの身長を測定して、そこから日本人全体(母集団)の平均と分散を推測してみたいです。

母集団の平均を推測するには、単に標本の平均を計算すれば

母集団の平均≒標本の平均になると思います。

しかし、分散に関しては標本の分散よりも母集団の分散のほうが大きい傾向にあります。(母集団の方がデータの数が多いから。)

そこで、母集団の分散を推測するには、標本の人数の代わりに標本の人数から1を引いた人数で割った値とします。これにより1引いた数で割ることにより少し大きな値になります。これを不偏分散といいます。

長くなってしまったので続きは次回にします。

 

 

 

 







-datascience

Copyright© excelで使えるデータサイエンスの数式 , 2020 All Rights Reserved.