Warning: Undefined array key "page" in /www/wwwroot/nownexts.com/wp-content/plugins/batch-cat/admin.php on line 147

互联网人必学的统计分析常识: 理解统计分布

多年来,著名的统计学家注意到,来自样本和人口的数据往往形成非常相似的模式。例如,许多数据围绕“中间”值进行分组,在分布的外边缘的观测值较少(非常高或非常低)。这些模式被称为“分布”,因为它们描述了数据是如何在可能的值范围内“分布”的。

数学家们已经发展出标准的统计分布来描述这些模式。这些标准的统计分布在统计分析中常被用作参考分布。这意味着它们使研究人员能够更容易地比较数据和样本组。

本页描述了一些标准分布,并解释了它们在统计检验中的重要性。

正态分布

正态分布可能是最著名的统计分布,它看起来是这样的:

互联网人必学的统计分析常识: 理解统计分布插图

由于它的形状,它也被称为钟形曲线,而正态分布曲线是以数学家 Carl f Gauss 的名字命名的,他是第一个描述这种曲线的人。

它是一个连续变量的分布,其中数据可以在任意两个值之间取无限多的值(有关这方面的详细信息,请参阅我们的数据类型页面)。

在自然界中,特别是在生物学中,常常发现接近正态分布的近似值。例如,身高、体重和血压在人群中往往遵循这种分布形式,在中间有一个集群,向两边靠拢(非常高和非常低)。尾巴是渐近的,或者说是无限的,趋向于零概率,但是永远达不到。

这一点也很重要,因为许多最强大的统计检验都要求数据是正常的。其中包括皮尔逊积矩相关性测试(更多信息,请参阅我们的统计分析页面: 理解相关性)。

正态曲线还具有一些与概率和标准差相关的有用特征(一种衡量数据在平均值周围的分布范围的方法)。更多关于标准差的信息,请看我们的简单统计分析页面。

例如:

  • 68% 的数值在平均值两侧的一个标准差内(有时写作 ± 1 SD) :

    互联网人必学的统计分析常识: 理解统计分布插图1

    因此,你有68% 的机会随机选择一个数据点,在一个标准差的平均值。

  • 95% 的数值在平均值(± 2sd)两侧的两个标准差内:

    互联网人必学的统计分析常识: 理解统计分布插图2

    这意味着你有95% 的概率随机选择一个数据点,这个数据点的误差在平均值的两个标准差之内。

  • 99.7% 的数值与平均值(± 3 SD)的3个标准差范围内:

    互联网人必学的统计分析常识: 理解统计分布插图3

    如果你随机选择一个数据点,有99.7% 的可能性会在平均值的三个标准差之内。

您可以使用统计测试(如 Kolmogorov-Smirnov 测试或 Shapiro-Wilk 测试)来测试数据是否遵循正态分布(统计软件包会自动为您计算这些数据)。一个无关紧要的结果告诉您您的数据是正态分布的。

您可以在我们的“显著性测试和置信区间”页面上找到更多关于显著性测试的信息。

一个特例: t- 分布

T 分布与正态分布相同。然而,当它被用作统计检验中的参考分布时,参考数据的标准差是从样本数据中估计出来的,而不是作为标准给出。



二项分布和泊松分布

二项分布和泊松分布都是离散概率分布。换句话说,它们描述了特定事件发生的概率分布。

二项分布是一系列独立实验成功数量的离散概率分布,每个实验都有一个是/否(或真/假)的结果。因此,它可以被用来,例如,从一副牌中抽出一张 a 的概率,如果每次抽牌后被替换,或者在一个骰子上掷出一个特定的值。

与正态分布不同,二项分布可以显示为一个直方图:

互联网人必学的统计分析常识: 理解统计分布插图4

上面的图表显示了在十次测试中掷硬币得到尾巴的概率(50% 或 p = 0.5)的分布情况(n = 10)。换句话说,如果你掷10个硬币大约100次,你会得到这样的分布: 你最常得到5个反面,大约24% 的时间,接着是4和6,大约20% 的时间,以此类推。

泊松分佈表示给定数量的事件在给定时间段内发生的概率。因此,它是美国二项分布交易所的一个特例,被广泛用于股票交易(在这种交易中,没有低于某一水平的交易,但技术上最大值是无限的)。它也适用于放射性。它没有标准的二项分布对称,在数值的上端有一个较长的尾巴:

互联网人必学的统计分析常识: 理解统计分布插图5

其他统计分布

还有一些其他的统计分布用于统计检验,它们的参数略有不同,包括:

  • 卡方(χ2)分布,即方差的分布,而不是变量值或平均值(如前面描述的分布) ;
  • F 分布,即方差比值的分布。

标准分布的特征

标准发行版有许多共同特征,包括:

  • 一个清晰的数学定义。它们的形状只反映了一些参数,比如均值和标准差(对于正态分布)或方差(对于卡方分布分布)。

  • 建立了理论性质。我们知道很多关于这些分布(例如,正态曲线是对称的)。

  • 它们是对真实数据的良好估计。在现实世界的数据样本中,不可能得到精确的正态分布。然而,这些分布是非常好的近似真实数据。

使用标准分布作为参考分布

在统计检验中,标准分布常被用作参考分布。

这意味着将样本数据与它们进行比较,以查看数据是否是随机发生的。

标准分布的特点使它们非常适合作为参考分布,尤其是众所周知的特征,而且它们是现实数据的良好近似。

然而,还有其他参考分布的来源。

  • 通过假设样本数据是唯一可用的数据,并从这些数据中提取重复的(更小的)样本,可以创建 Bootstrap 分布。只有当你有机会使用电脑的时候才能真正使用它们,而且它们并不理想。因此,只有在别无选择的情况下,才能使用它们。

  • 排列分布是通过寻找排序数据的所有可能的排列来创建的。因此,他们考虑所有可能的结果,看看它们的可能性有多大。他们没有假设任何潜在的理论分布。使用这些分布的检验被称为“非参数”检验,以区别于使用具有已知参数的标准分布的“参数”检验。

  • 归档数据还可用于创建引用分发。这可能是适当的,因为有很多过去的数据可以使用。

为什么统计分布很重要

您需要了解统计分布的主要原因是它们在统计测试中的用途。

您可以使用它们来比较您的数据,以帮助您了解从数据中识别出真实关系或特性的可能性有多大。

原文链接:https://nownexts.com/statistical-analysis-knowledge-that-internet-people.html,转载请注明出处。
0
没有账号?注册  忘记密码?
在线客服
我们将24小时内回复。
2024-04-26 02:06:19
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
需登录后才可留言。
您尚未登录网站账户,

选择聊天工具: