互联网人必学的统计分析常识: 理解统计分布

多年来，著名的统计学家注意到，来自样本和人口的数据往往形成非常相似的模式。例如，许多数据围绕“中间”值进行分组，在分布的外边缘的观测值较少(非常高或非常低)。这些模式被称为“分布”，因为它们描述了数据是如何在可能的值范围内“分布”的。

数学家们已经发展出标准的统计分布来描述这些模式。这些标准的统计分布在统计分析中常被用作参考分布。这意味着它们使研究人员能够更容易地比较数据和样本组。

本页描述了一些标准分布，并解释了它们在统计检验中的重要性。

正态分布

正态分布可能是最著名的统计分布，它看起来是这样的:

由于它的形状，它也被称为钟形曲线，而正态分布曲线是以数学家 Carl f Gauss 的名字命名的，他是第一个描述这种曲线的人。

它是一个连续变量的分布，其中数据可以在任意两个值之间取无限多的值(有关这方面的详细信息，请参阅我们的数据类型页面)。

在自然界中，特别是在生物学中，常常发现接近正态分布的近似值。例如，身高、体重和血压在人群中往往遵循这种分布形式，在中间有一个集群，向两边靠拢(非常高和非常低)。尾巴是渐近的，或者说是无限的，趋向于零概率，但是永远达不到。

这一点也很重要，因为许多最强大的统计检验都要求数据是正常的。其中包括皮尔逊积矩相关性测试(更多信息，请参阅我们的统计分析页面: 理解相关性)。

正态曲线还具有一些与概率和标准差相关的有用特征(一种衡量数据在平均值周围的分布范围的方法)。更多关于标准差的信息，请看我们的简单统计分析页面。

例如:

68% 的数值在平均值两侧的一个标准差内(有时写作 ± 1 SD) :

因此，你有68% 的机会随机选择一个数据点，在一个标准差的平均值。
95% 的数值在平均值(± 2sd)两侧的两个标准差内:

这意味着你有95% 的概率随机选择一个数据点，这个数据点的误差在平均值的两个标准差之内。
99.7% 的数值与平均值(± 3 SD)的3个标准差范围内:

如果你随机选择一个数据点，有99.7% 的可能性会在平均值的三个标准差之内。

您可以使用统计测试(如 Kolmogorov-Smirnov 测试或 Shapiro-Wilk 测试)来测试数据是否遵循正态分布(统计软件包会自动为您计算这些数据)。一个无关紧要的结果告诉您您的数据是正态分布的。

您可以在我们的“显著性测试和置信区间”页面上找到更多关于显著性测试的信息。

一个特例: t- 分布

T 分布与正态分布相同。然而，当它被用作统计检验中的参考分布时，参考数据的标准差是从样本数据中估计出来的，而不是作为标准给出。

二项分布和泊松分布

二项分布和泊松分布都是离散概率分布。换句话说，它们描述了特定事件发生的概率分布。

二项分布是一系列独立实验成功数量的离散概率分布，每个实验都有一个是/否(或真/假)的结果。因此，它可以被用来，例如，从一副牌中抽出一张 a 的概率，如果每次抽牌后被替换，或者在一个骰子上掷出一个特定的值。

与正态分布不同，二项分布可以显示为一个直方图:

上面的图表显示了在十次测试中掷硬币得到尾巴的概率(50% 或 p = 0.5)的分布情况(n = 10)。换句话说，如果你掷10个硬币大约100次，你会得到这样的分布: 你最常得到5个反面，大约24% 的时间，接着是4和6，大约20% 的时间，以此类推。

泊松分佈表示给定数量的事件在给定时间段内发生的概率。因此，它是美国二项分布交易所的一个特例，被广泛用于股票交易(在这种交易中，没有低于某一水平的交易，但技术上最大值是无限的)。它也适用于放射性。它没有标准的二项分布对称，在数值的上端有一个较长的尾巴:

其他统计分布

还有一些其他的统计分布用于统计检验，它们的参数略有不同，包括:

卡方(χ2)分布，即方差的分布，而不是变量值或平均值(如前面描述的分布) ;
F 分布，即方差比值的分布。

标准分布的特征

标准发行版有许多共同特征，包括:

一个清晰的数学定义。它们的形状只反映了一些参数，比如均值和标准差(对于正态分布)或方差(对于卡方分布分布)。
建立了理论性质。我们知道很多关于这些分布(例如，正态曲线是对称的)。
它们是对真实数据的良好估计。在现实世界的数据样本中，不可能得到精确的正态分布。然而，这些分布是非常好的近似真实数据。

使用标准分布作为参考分布

在统计检验中，标准分布常被用作参考分布。

这意味着将样本数据与它们进行比较，以查看数据是否是随机发生的。

标准分布的特点使它们非常适合作为参考分布，尤其是众所周知的特征，而且它们是现实数据的良好近似。

然而，还有其他参考分布的来源。

通过假设样本数据是唯一可用的数据，并从这些数据中提取重复的(更小的)样本，可以创建 Bootstrap 分布。只有当你有机会使用电脑的时候才能真正使用它们，而且它们并不理想。因此，只有在别无选择的情况下，才能使用它们。
排列分布是通过寻找排序数据的所有可能的排列来创建的。因此，他们考虑所有可能的结果，看看它们的可能性有多大。他们没有假设任何潜在的理论分布。使用这些分布的检验被称为“非参数”检验，以区别于使用具有已知参数的标准分布的“参数”检验。
归档数据还可用于创建引用分发。这可能是适当的，因为有很多过去的数据可以使用。

为什么统计分布很重要

您需要了解统计分布的主要原因是它们在统计测试中的用途。

您可以使用它们来比较您的数据，以帮助您了解从数据中识别出真实关系或特性的可能性有多大。

欢迎来到游读社课堂

4节

互联网人必学的统计分析常识: 理解统计分布

正态分布

二项分布和泊松分布

其他统计分布

标准分布的特征

使用标准分布作为参考分布

为什么统计分布很重要

欢迎来到游读社课堂

5、升维篇–个人增长飞轮篇

4、数据篇–洞察力突破课

2、能力篇–核心销转能力课

3、精进篇-策略方法课

在线客服

升级VIP

每日签到

夜间模式

繁简切换

返回顶部

选择聊天工具：

互联网人必学的统计分析常识: 理解统计分布

正态分布

二项分布和泊松分布

其他统计分布

标准分布的特征

使用标准分布作为参考分布

为什么统计分布很重要

欢迎来到游读社课堂

5、升维篇–个人增长飞轮篇

4、数据篇–洞察力突破课

2、能力篇–核心销转能力课

3、精进篇-策略方法课

相关文章：

猜你喜欢

实体商家如何做好口碑营销

收藏全文到到 Obsidian by简悦 Obsidian 配置库

SEM怎么做？ SEO、SEM的差异？一篇带你搞懂！

如何夺取竞争对手的自然流量

如何获得竞争优势，在线上取得成功

如何对新网站进行竞争对手分析

在线客服

升级VIP

每日签到

夜间模式

繁简切换

返回顶部

选择聊天工具：