欢迎访问察北家纺网

统计学基础知识(中级统计专业技术资格)

频道:百科问答 日期: 浏览:1227

统计学是数据分析的基础,很多人只会用平均数去分析 这往往是粗糙的,不准确的。如果掌握了统计学,那么我们就能以更多更科学的维度去分析数据。本文将围绕统计学的几大特性进行简单介绍,希望对大家的工作有所帮助。

统计量的描述方式

集中性

1.平均数:Mean

是表示一组数据 集中趋势 量数 ,是指在一组数据中所有数据之和再除以这组数据的个数。

2.众数:Mode

是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。

3.中位数:Median

把所有数据按顺序进行排列,分布在最中间的值。

样本总数为奇数时,中位数为第(n+1)/2个位置对应的值;

样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数。

4.四分位数: Quartile

把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

第一四分位数 (Q1),指该样本中所有数值由小到大排列后第25%的数字;

第二四分位数 (Q2),又称“中位数”,指该样本中所有数值由小到大排列后第50%的数字;

第三四分位数 (Q3),指该样本中所有数值由小到大排列后第75%的数字。

四分位数

离散性

1.四分位距 : Interquartile range

第三四分位数与第一四分位数的 差距 称四分位距, IQR=Q3-Q1。

四分位距

2.异常值: Outlier

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR)的值,处理数据环节我们需要将 异常值剔除

3.极差:Range

一组数据中最大值与最小值之间的差值, R=Xmax-Xmin。

4.方差:Variance

每个样本值与全体样本值的平均数之差的平方值的 平均数

5.标准差: Standard Deviation

总体各单位标准值与其平均数离 差平方 算术平均数 平方根 。它反映组内个体间的离散程度。

分布形态

1.概率分布:Probability distribution

用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。

2.置信区间:Confidence interval

指由 样本统计量 所构造的 总体参数 的估计区间,置信区间展现的是这个参数的 真实值 有一定概率落在测量结果的周围的程度,其给出的是 被测量 参数的测量值的可信程度,一般较为常用的是95%的置信区间。

3.正态分布: Normal distribution

随机变量X服从一个数学期望为μ,方差为σ²的正态分布,记为N(μ,σ²;)

随机取一个样本,有 68.26% 的概率位于距离均值μ有1个标准差σ内;

95.45% 的概率位于距离均值μ有2个标准差σ内;

99.73% 的概率位于距离均值μ有3个标准差σ内。

正态分布概率分布图