最常见的统计检验之一是看看两个变量之间是否存在联系ーー也就是说,如果你改变一个变量,另一个也会改变吗?变量之间的这种类型的链接称为关联或关联。

关于这种关联的知识是有用的,因为这意味着您知道如果一个变量发生变化,另一个变量也会发生变化。然后你可以测量其中一个变量,并用它来预测另一个变量的水平。

当然,这里有一些警告: 你需要意识到这种关系可能因为一个或其他变量的高低值而有所不同,而你的结果只是一个预测,而不是绝对的。然而,当你的一个变量很难客观地衡量时,这是有用的。

有关客观数据和主观数据的区别,请参阅我们的数据类型页面。

定义关联

变量之间的关联通常被描述为正或负,弱或强。

  • 正相关意味着一个变量的高分数倾向于出现在另一个变量的高分数上。

  • 负相关意味着一个变量的高分往往出现在另一个变量的低分上。

  • 当一个变量的得分不能预测另一个变量的得分时,就没有联系了。

  • 一个强烈的联系是,即使是一个方面的微小变化也与另一个方面的变化有关。

  • 对于弱关联,可能需要在一个关联中进行更大的更改,然后才能看到另一个关联的更改,或者可能需要更多的数据才能看到关联。

相关性与因果关系的区别

相关系数是两个变量之间的关联,并不一定意味着一个变量导致另一个变量。

两者都可能是由完全不同的东西引起的,或者仅仅是表现出一种特征的人常常表现出另一种特征。

例如,假设那些在网上购物的人比那些在商店购物的人购买更多的现成食品。因此,这两者之间存在着正相关性。

然而,网上购物不太可能导致人们购买更多的现成食品。更有可能的是那些在网上购物的人时间不够,所以买了更多的方便食品,或者可能仅仅是年轻人更有可能在网上购物和购买方便食品。

一个关联而非因果关系的例子: 看到鹳


在瑞典,看到鹳鸟与出生率有关。换句话说,出生率较高的城镇报告更多地看到鹳。

这是否意味着这些古老的传说是真的,而且鹳真的会生孩子?

没有。

有一个因素与两者都有关: 城镇的规模。城镇越大,人口越多,所以出生率越高。他们还有更多的人可能会看到白鹳,也有更多的房子供白鹳在屋顶上筑巢。


看联想

检查关联的最佳方法之一是用 x 轴和 y 轴上的两个变量绘制数据的散点图。广义地说,如果有关联,你可以从图表中看出来。

直接联结(线性或直线联结)

Scatter graph showing a positive linear association.

在这个图中,随着 x 轴(沿着底部)上的值的增加,y 轴上的值也会增加。因此,这两个变量之间存在正相关。我们也可以说 x 与 y 成正比。

Scatter graph showing a negative linear association.

在这个图中,您可以看到相反的效果: 当 x 轴上的值增加时,y 轴上的值减少。因此,这个图表显示了两个变量之间的负相关(或反比关系)。

这两个图表都显示了所谓的线性或“直线”关系: 在图表上绘制时,变量之间的关系显示为一条直线(或多或少)。你可以添加所谓的最佳拟合线或趋势线,它将是直线:

Scatter graph showing a negative linear association with a terendline.

如果没有关系,你怎么知道?根据两个变量的变化还是只有一个变量的变化,这些图看起来会有很大的不同。

Scatter graph showing data with no association.

这个图表显示两个变量之间没有关系: 一个变量变化,另一个也变化,但不是在任何特定的模式中。趋势线(或多或少)是水平的。你也可以看到一个变量变化的图表,但是另一个保持不变,像这样:

Scatter graph showing data with one variable change.


识别其他关系

绘制图表也可以帮助你确定是否存在一种特殊的关系。这可能包括,例如,其中一部分数据是正相关的,其余数据是负相关的,如下所示。这在测试中显示为没有相关性,但在这种情况下显然存在某种关系。

这个例子被称为“倒 u”关系。

Scatter graph showing an inverted u-shape relationship.

相反的关系被称为“ u 型”关系:

Scatter graph showing data with a u-shaped relationship.

这两种类型的关系都可以用一个(广义的)一元二次方程来描述(关于这些关系的更多信息,你可以阅读我们关于联立方程和二次方程的网页)。

你也可以看到所谓的指数关系:

Scatter graph showing data with an exponential relationship.

在这里,x 的值每增加一(增加一) ,y 的值就增加一倍。


协会的统计检验

这里使用的数据都是相当明显的: 图表显示这两个变量之间有明显的关系。然而,现实生活中的数据很少如此方便。

因此,您可以使用统计测试来确定两个变量之间是否存在关系。

您对测试的选择将取决于数据的类型(请参阅我们关于数据类型的页面了解更多关于数据之间区别的信息)。

根据使用的是连续数据、分类数据还是排序数据,有一些特定的测试。

  • 对于范畴数据,可以使用卡方检验表(也写成 χ2)。

    这可以测量变量是否相互独立。然而,它不会告诉你任何关于这种关系的类型,只是告诉你有一种关系。

  • 对于连续数据,最常用的检验方法是皮尔逊积矩相关法。

    这可以度量两个变量之间关系的强度和方向。它只能用于关系是线性的(直线) ,所以如果你有一个 u 形的散点图,它不能使用。在这种情况下,您可以将数据拆分为几个部分,或者对值进行排序,并使用排序关联。

    您的数据还需要大致呈正态分布(在我们的统计分布页面中有更多关于这一点的内容)。

    在使用皮尔逊相关检验之前,还应该剔除任何异常值(首先使用散点图的另一个原因)。下面的图表显示了一个主要的离群值(红色环)的散点图,在运行皮尔逊分析之前应该删除。

    Scatter graph showing data with a major outlier.

  • 对于排名,使用 Kendall 排名顺序相关或 Spearman 的排名相关。

进行统计相关性检验

对于每一个测试,基本步骤都是相同的。

您可以使用一个标准公式计算出一个“测试统计量”的值,该公式是特定于您选择的测试的,并在需要的地方插入您的变量。然后将这个测试统计数据与获得期望的显著性级别所需的值进行比较,这些显著性级别是从统计表中获得的。这告诉你这两个变量以某种方式相关的可能性有多大。

重要性


意义意味着你有多自信这种关系不是偶然发生的。研究人员通常测量1% 或5% 水平的重要性,这意味着他们有95% 或99% 的信心,任何观察到的关系不是由于偶然。

在我们关于重要性和置信区间的页面中有更多关于重要性的意义。

使用统计软件

使用统计测试来衡量关系听起来很复杂。然而,在实践中,这是相对简单的。如果是手工操作,则使用标准公式,并将测试统计值与从标准和广泛可用的统计表中获得的值进行比较。然而,大多数研究人员使用统计软件包,这些软件包为你做所有的工作。他们会计算所有的测试统计数据,有些甚至会突出显著性的水平。


Oh 游读者 👋
It’s nice to meet you.

每周三,您都将收到一封内容详实的Newsletter.

close

Oh 游读者 👋
It’s nice to meet you.

每周三,您都将收到一封内容详实的Newsletter.