博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
方差的意义
阅读量:3907 次
发布时间:2019-05-23

本文共 612 字,大约阅读时间需要 2 分钟。

方差是为了观察样本的离散程度。举个例子:样本A是10、10、10、10、10;样本B是-10、0、10、20、30。A和B的均值都是10,但显然B的样本点离散程度更大一些。如何来用统计量描述这种离散程度呢?很直观可以想到:那就把每一个样本点与均值点的“距离”统计在一起看一看就清楚了。最先想到的距离就是直接做差(暂时仅讨论一维情况),但会有正负号相抵消的问题——试想上边样本A和B,每个样本点与均值做差并对差值求和后都是0,并无法区分分散程度。鉴于此,很直接想到一个改良版本,即对差的绝对值求和,即统计量“平均差”。但平均差仍有一些问题,最关键的是没有过于偏离的点以足够多的“关注”。举例子:给定样本C为-20、10、10、10、40。将样本C与样本B比较,二者均值相等、平均差相等,但直观感受上来讲,样本C离散更严重些(想像成分数的话就是C的发挥更加不稳定),因为有两个明显“跑到远处去”的点。所以为了给明显跑偏的点以更大的“关注”,就使用二次函数加大这个惩罚值,于是方差便诞生了。当然,为了与样本点及其均值在量纲上可比,通常会再开方得到标准差。此外,方差有一些额外的优势,比如二次函数天然可解决正负号相抵的问题、可以在高维数据下计算距离、计算方便等等。另外从统计意义上讲,可以证明使方差最小化能够找到概率最高的无偏估计。综上,方差成为了描述样本离散程度的最常用统计量。

方差越大,说明数据离散程度越大,其所包含的信息越多

转载地址:http://uxmen.baihongyu.com/

你可能感兴趣的文章
Python Singleton
查看>>
Python hashmap
查看>>
python 切片
查看>>
interview sum
查看>>
HTTPs Control
查看>>
澳洲孕维生素
查看>>
Prenatal Vitamin Brands
查看>>
has_key or in
查看>>
Python sort list customisation
查看>>
Python sort dict by value
查看>>
Python collections deque - double-ended queue ()
查看>>
Python sort sorted OrderDict
查看>>
Python dict sort
查看>>
Python lambda
查看>>
Python modify string in place
查看>>
Python dict del
查看>>
Http header
查看>>
HTTP Header
查看>>
ASCII - American Standard Code for Information Interchange
查看>>
进制转换
查看>>