一旦你收集了定量数据,你就会得到很多数据。现在是进行一些统计分析的时候了,以便理解您的数据,并从中得出一些推论。

你可以使用的技术范围很广。

本页提供了一些最常用的概括数据的技术,并解释了何时使用这些技术。

处理任何数据的第一件事就是将其总结,这意味着以最能说明问题的方式呈现数据。

起点通常是将原始数据分类,并/或将其可视化。例如,如果您认为您可能对年龄差异感兴趣,那么首先要做的可能是将您的数据按年龄分类,也许是十年或五年的组块。

最常用的总结技巧之一是使用图表,特别是柱状图,它按顺序显示每个数据点,或直方图,柱状图被分成更广泛的类别。

下面是一个示例,它使用了三组数据,按照四个类别进行分组。例如,这可能是“男性”、“女性”和“其他/没有指定性别”,按年龄分为20-29岁、30-39岁、40-49岁和50-59岁。

Example histogram

直方图的另一种形式是线状图,它绘制出每个数据点,并用一条线将它们连接起来。与条形图中相同的数据显示在下面的折线图中。

Example line chart

手工绘制直方图或线状图并不难,你可能还记得在学校的时候,但是一旦你把数据输入到一个表格中,电子表格会很快很容易地绘制一个直方图或线状图,为你省去任何麻烦。他们甚至会带你走过整个过程。

可视化你的数据


绘制图表的重要之处在于,它可以立即为您提供数据的“图像”。这一点很重要,因为它可以直接显示您的数据是分组在一起、分布在四周、趋向于高值还是低值、或者聚集在一个中心点周围。它还将向您显示是否存在“离群值”,即非常高或非常低的数据值,您可能希望从分析中排除这些值,或者至少重新检查它们是否正确。

在开始任何进一步分析之前,总是值得绘制一个图表,只是为了查看数据。

您还可以在饼图中显示分组数据,例如这个饼图。

Example pie chart

当你对每个群体的相对大小感兴趣时,饼图是最好的使用方式,以及它们占总数的多大比例适合每个类别,因为饼图可以非常清楚地说明哪个群体更大。

更多关于不同类型图表的信息,请参阅我们的网页: 图表和图形。

位置测量: 平均值

这个平均值可以给你关于你正在测试的东西的影响大小的信息,换句话说,无论是大的还是小的。平均值有三种衡量标准: 平均值、中位数和模态。

查看我们的页面平均数更多关于计算每一个,并为一个快速计算器。

当大多数人说平均数时,他们指的是平均数。它的优点是它使用所有获得的数据值,可用于进一步的统计分析。然而,它可能被异常值所扭曲,异常值是非典型的大或小。

因此,研究人员有时使用中位数来代替。这是所有数据的中间点。中位数没有被极端值所扭曲,但是很难用于进一步的统计分析。

模式是数据集中最常见的值,不能用于进一步的统计分析。

平均值、中位数和模态的值是不一样的,这就是为什么清楚你所说的平均值是非常重要的。

评估简要措施: 稳健性和效率


有两个结构(想法或概念) ,通常用于评估总结措施,如平均值,中位数和模式。这些都是健壮性和效率。

  • 健壮性是一种度量方法,用以衡量摘要度量方法对数据质量变化的敏感程度。

    数据质量的这些变化可以通过异常值、两端的极端值或分析期间采取的行动(如为进一步分析对数据进行分组)产生。一个强有力的测量对这些变化不敏感。因此,中位数比平均值更稳健,因为它不受异常值的影响,而且分组可能导致很少的变化。

  • 效率是一个衡量概括性度量如何使用所有数据的度量。

    一个更有效的方法使用更多的数据,因此平均值是非常有效的,因为它使用了所有的数据。

因此,这两种措施往往是相互矛盾的: 更强有力的措施可能效率更低。

在你的分析中,你需要决定哪一个更重要。

扩散的度量: 范围,方差和标准差

研究人员经常想看看数据的传播情况,也就是说,数据在整个可能的测量尺度上的传播范围有多广。

有三种常用的衡量标准:

范围是最大值和最小值之间的差值。研究人员经常引用数据的中间部分的范围—- 四分差,从25% ,下四分位数,到75% ,上四分位数(中位数是50% 的数值)。要找到四分位数,使用与中位数相同的方法,但用四分之一点和四分之三点代替中点。

标准差指数衡量的是平均值周围的平均价差,因此可以给出与平均值的典型距离。

方差是标准差的平方,计算方法如下:

  1. 计算每个值与平均值的差值;
  2. 把每一个数字平方(以消除平均值以上和以下数字之间的差异) ;
  3. 将差异的平方相加
  4. 除以项目数减去一。

这就给出了方差。

要计算标准差,需要方差的平方根。

歪斜

倾斜度量数据集的对称程度,或者数据集的值是更高还是更低。较低值的样本被描述为负偏态,较高值的样本被描述为正偏态。

一般来说,样本越倾斜,平均值、中位数和模态的重合度就越低。

更高级的分析

一旦你计算出了一些基本的位置值,比如平均值或中值,扩散值,比如范围和方差,并建立了歪斜的程度,你就可以转向更高级的统计分析,并开始在数据中寻找模式。

Oh 游读者 👋
It’s nice to meet you.

每周三,您都将收到一封内容详实的Newsletter.

close

Oh 游读者 👋
It’s nice to meet you.

每周三,您都将收到一封内容详实的Newsletter.