互联人必学的统计分析常识: 显著性和置信区间

在任何统计分析中，您可能使用的是一个样本，而不是来自整个人口的数据。因此，你的结果可能不能代表整个人群ーー如果你的抽样不是很好，那么实际上可能是非常不准确的。

因此，你需要一种方法来衡量你有多确定你的结果是准确的，而不仅仅是偶然发生的。统计学家使用两个相关的概念: 信心和重要性。

本页解释了这些概念。

统计显著性

意义这个术语在统计学中有一个非常特殊的意义。它告诉你你的结果不是偶然发生的可能性有多大。

在图表中，蓝色的圆代表整个人口。当你取样时，你的样本可能来自整个人群。然而，它更有可能是更小的。如果都是从黄色的圆圈内，那么你已经覆盖了相当多的人口。但是，你也可能不走运(或者你的取样程序设计得很糟糕) ，只能从红色的小圆圈内取样。这将对你的样本是否代表整个人口产生严重影响。

确保覆盖更多人群的最佳方法之一是使用更大的样本。您的样本大小强烈影响您的结果的准确性(有更多关于这在我们的抽样和样本设计页)。

然而，另一个因素也影响了准确性: 种群内部的变异。您可以通过查看数据传播的度量来评估这一点(关于这一点的更多信息，请参阅我们的简单统计分析页面)。变化越大，你就越有可能选择一个不典型的样本。

重要性的概念只是把样本大小和总体变化放在一起，然后对你犯了抽样错误的可能性进行数值评估: 也就是说，你的样本不代表你的总体。

意义表示为您的结果是偶然发生的概率，通常称为 p 值。您通常希望它小于某个值，通常是0.05(5%)或0.01(1%) ，尽管有些结果也报告0.10(10%)。

无效假设与替代假设

当你进行一项实验或一项市场调查时，你通常想知道你所做的事情是否有影响。因此，你可以将其表述为一种假设:

X 会对 y 产生影响。

这在统计学中被称为“替代假说”，通常被称为 H1。

零假设，或者 H0，就是 x 对 y 没有影响。

从统计学上讲，显著性检验的目的是看看你的结果是否表明你需要拒绝无效假设ーー在这种情况下，替代假设更有可能是正确的。

如果你的结果不显著，你不能拒绝零假设，你必须得出结论，没有影响。

值是如果原假设为真，那么获得结果的概率。

计算重要性

计算重要性的一种方法是使用 z 值。这描述了从一个数据点到平均值的距离，以标准偏差的数量表示(更多关于平均值和标准差的信息，请参阅我们的简单统计分析页面)。

为了进行简单的比较，使用以下公式计算 z 得分:

其中 x 是数据点，μ 是总体或分布的均值，σ 是标准差。

例如，假设我们希望测试一个游戏应用程序是否比其他游戏更受欢迎。假设一个游戏应用程序的平均下载量为1000次，标准差为110次。我们的游戏已经被下载了1200次。它的 z 得分是:

更高的 z 分数意味着结果不太可能是偶然发生的。

您可以使用标准的统计 z 表将 z 得分转换为 p 值。如果你的 p 值低于你期望的显著性水平，那么你的结果就是显著的。

使用 z-table，我们的游戏应用程序的 z-score (1.81)转换为 p 值0.9649。这比我们期望的5% (0.05)(因为1-0.9649 = 0.0351，或3.5%)要好，所以我们可以说这个结果是显著的。

注意，从总体中抽取的样本有一个细微的差别，其中 z 分值是使用公式计算的:

其中 x 是数据点(通常是样本均值) ，μ 是总体或分布的均值，σ 是标准差，√ n 是样本容量的平方根。

举个例子就能说明这一点。

假设你正在检查生物学学生是否倾向于比他们学习其他科目的同学得到更好的分数。你可能会发现，40名生物学家的平均测试分数是80分，标准差为5分，相比之下，那所大学或学校的所有学生的平均分数是78分。

使用 z 表，2.53对应于0.9943的 p 值。你可以从1减去这个得到0.0054。这低于1% ，所以我们可以说这个结果在1% 的水平上是显著的，而且生物学家在测试中比这所大学的普通学生得到更好的结果。

请注意，这并不一定意味着生物学家比那些学习其他科目的人更聪明或更擅长通过测试。事实上，这可能意味着生物测试比其他科目的测试更容易。找到一个重要的结果并不是因果关系的证据，但是它确实告诉你可能有一个你想要研究的问题。

在我们的“假设发展与检验”页面中，有更多关于样本平均值的显著性检验和不同组之间的差异检验的内容。

置信区间

置信区间值(或置信水平)是一个范围的值，有一个给定的概率，真正的价值在其中。

实际上，它测量您对样本的平均值(样本平均值)与样本所在总体的平均值(总体平均值)相同的信心。

例如，如果你的平均值是12.4，你的95% 的置信区间是10.3-15.6，这意味着你有95% 的把握你的人口的真实值在10.3到15.6之间。换句话说，它可能不是12.4，但是你有理由相信它没有很大的不同。

下面的图表显示了遵循正态分布的变量的实际情况(关于这方面的更多信息，请参阅我们的统计分布页面)。

置信区间的确切含义是，如果你多次进行实验，你从这些实验中构建的95% 的间隔将包含真正的价值。换句话说，在你5% 的实验中，你的区间值不包含真实值。

你可以从图表中看到，有5% 的可能性置信区间不包括人口平均数(2.5% 的两条尾巴)。换句话说，在每20个样本或实验中，我们得到的置信区间的数值不包括真正的平均值: 人口的平均值实际上会落在置信区间之外。

计算置信区间

计算置信区间使用你的样本值和一些标准度量值(平均值和标准差)(更多关于如何计算这些，请参阅我们的简单统计分析页面)。

举个例子就很容易理解了。

假设我们抽取了一组40人的身高样本，发现平均身高是159.1厘米，标准差是25.4厘米。

置信区间的标准差

理想情况下，你可以用人口标准差来计算置信区间。然而，你不太可能知道这是什么。

幸运的是，如果你有足够大的样本，你可以使用样本标准差。一般认为，样本容量应在30或30以上，但样本容量越大越好。

我们需要弄清楚我们的平均值是对所有人的身高的合理估计，还是我们选择了一个特别高(或特别短)的样本。

我们使用一个公式来计算置信区间，它是:

其中 SD = 标准差，n 是观测数量或样本容量。

Z 值取自我们选择的参考分布的统计表。这些表格提供了特定置信区间的 z 值(例如，95% 或99%)。

在这种情况下，我们测量人的身高，我们知道人口高度遵循一个(广泛)正态分布(更多关于这一点，请参阅我们的网页上的统计分布)。因此，我们可以使用正态分布的值。

95% 置信区间的 z 值是正态分布的1.96(取自标准统计表)。

使用上面的公式，95% 的置信区间是:

当我们进行这个计算时，我们发现置信区间是151.23-166.97厘米。因此，可以合理地说，我们有95% 的把握认为人口平均数在这个范围之内。

理解 z 得分或 z 值

Z 分值是对平均值的标准偏差的度量。因此，在我们的例子中，我们知道95% 的值会落在平均值的 ± 1.96个标准差之内:

评估你的置信区间

作为一般的经验法则，一个小的置信区间更好。随着样本数量的增加，置信区间会缩小，这就是为什么更大的样本总是首选。正如我们的抽样和样本设计页面所解释的，你的理想实验应该包括整个人群，但这通常是不可能的。

总结

置信区间和显著性是显示统计结果质量的标准方法。在进行任何统计分析时，你应该定期报告这些数据，并且通常应该报告准确的数字。这将确保你的研究是有效和可靠的。

欢迎来到游读社课堂

4节

互联人必学的统计分析常识: 显著性和置信区间