《统计思维》读书笔记之描述性统计量

清明放假三天,闲来无事,拿起角落里吃灰蛮久的《统计思维》一书聊以打发。现把读书笔记结合收集的相关资料内容记录如下。

描述性统计量

描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。描述性统计又分为集中趋势(Measures of central tendency)和离散趋势(Measures of Dispersion)

均值

均值(Mean),即所有数据相加后的总和除以数据的个数得出的结果, 也称算术平均值。设一组样本数据为x1,x2,...,xn,样本数据的个数为n,则均值为:

均值计算公式

平均值

平均(Average)是若干种可以描述样本的典型值或集中趋势(central tendency)的汇总统计量之一。狭义上可以认为平均值就是均值。实际上平均值还有:

加权平均值

计算公式为:

加权平均值计算公式

几何平均数

几何平均值是n个变量值乘积的n次方根,用G表示,计算公式为:

几何平均值计算公式

例如一位投资者持有一种股票,连续四年的收益率分别为4.5%,2.1%,25.5%,1.9%,那么该投资者在这四年内的平均收益率为:

投资平均收益率

平均值缺点就是对异常值不敏感。一个矮子和姚明在一起计算平均身高,得出来是正常人的身高,没有反应出姚明身高这种”异常“情况。

方差

方差(Variance)描述了分散情况,能够体现异常值情况,计算公式为:

方差计算公式

其中u是平均值,X-u叫做离均差(deviation from the mean)。因此方差为该偏差的方均值。

标准差

标准差(Standard deviation)是方差的算术平方根,用σ表示。方差和标准差是用来度量一组数据分散情况的两个数值,但是标准差能更直观地表示出数据中的值与均值的距离。

标准差能反映一个数据集的离散程度,标准偏差越小,这些值偏离平均值就越少,反之亦然。计算公式为:

标准差计算公式

标准分数

标准分数(standard score)也称为Z分数,是一个数与平均数的差再除以标准差的过程。计算公式为:

标准分数计算公式

标准分数代表的意义就是某数距离均值的标准差个数。

标准分数意义

上图中中间虚线表示均值,两条虚线之间的范围表示一个标准差σ

从上图可以发现:

有68.2%的数值位于平均值一个标准差的范围内;

有95.5%的数值位于平均值两个个标准差的范围内;

有99.7%的数值位于平均值三个标准差的范围内。

中位数

中位数(Median)是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。

四分位数

四分位数(Inter Quartile Range (IQR))是分位数形式的一种。计算方式是把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值,如图中的Q1、Q2、Q3:

四分位数

第一四分位数 (Q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第 25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

关于四分位数的应用,比较重要的就是绘制箱线图:

箱线图

分位数除了四分位数外,还有十分位数,百分位数等。百分位数常用统计网站90%,95%,99%情况下的响应时间。

分布

均值、方差、标准差都是汇总统计量,可能会掩盖数据的真相。这是可以查看的数据的分布(distribution)。分布描述了各个值出现的频繁程度。

频数

频数指的是数据集中值出现的次数。给定一个序列t,频数计算如下:

1
2
3
hist = {}
for x in t:
hist[x] = hist.get(x, 0) + 1

众数

分布中出现次数最多的值叫做众数(Mode),即频数最大的那个值(可能多个)。众数是最适合描述典型值的汇总统计量。与均值、中位数一样,众数也有平均的含义

异常值

远离众数的值叫异常值(outlier),即频数最小的那个值(可能多个)。异常值可能是采集和处理数据过程中的错误导致的。

极差

极差(Range)为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异

变异系数

变异系数(Coefficient of Variation (CV))又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度,CV用来来衡量不同总体数据的相对分散程度更合理。

概率质量函数

概率质量函数(probability mass function,简写为pmf)是离散随机变量在各特定取值上的概率。属于离散分布。

把上面计算频数改成计算概率,即频数除以样本数量n,得到值与概率映射即为概率质量函数。

1
2
3
4
n = float(len(t))
fpm = {}
for x, freq in hist.items();
pmf[x] = freq/n

上面内容的思维导图:

参考