技术文章

标准偏差计算中的样本大小补偿

7月21日，2020年经过罗伯特·凯姆

本文讨论了贝塞尔修正，这有助于我们更准确地估计某些参数和持续时间长的信号的标准偏差。

本文是关于电气工程师统计的第一个系列的继续引入统计学作为分析电路行为和工程系统特征的手段．然后我们讨论了具体的方法，特别是在使用平均数和中位数找一个数据集的集中趋势．

最近，我们谈到了三种描述性统计度量-信号处理中的平均偏差、标准偏差和方差-以理解偏离这些中心趋势的情况。

以我们上一篇关于标准差的文章为背景，我们现在可以讨论讨论的另一个关键方面:标准差计算中的样本大小补偿。

除以N还是N - 1?

如果您读过前一篇文章，可能会注意到我们在计算离散数据的标准差时使用的公式中有一个明显的差异。公式如下:

\ [\西格玛= \ SQRT {\西格马^ 2} = \ SQRT {\压裂{1} {N-1} \ sum_ {K = 0} ^ {N-1}（X [k]的 - \亩）^2} \]

标准差表示信号随机偏差的平均功率。然而，当我们计算某物的平均值(即算术平均值)时，我们总是除以N(其中N表示数据点的数量)，而不是除以N - 1。

为什么我们在计算标准差时使用N-1 ?

实际上，我们并不总是除以N-1。我们可以用N代替N - 1来计算标准差，但是在理论上，所得到的数字代表不同的东西。我强调“理论”，因为在电气工程的背景下，差别常常是微不足道的。然而，理解基本概念，它是植根于一个样本和人口之间的区别是很重要的。

样本、总体和标准偏差

假设您购买了一个运放(称为部件号OPA100)，在实验室进行了一些实验之后，您意识到数据表中的规格没有提供关于应用程序工作温度下的输入偏置电压的足够信息。为了解决这个问题，您决定购买15个OPA100运算放大器(因此N = 15)，进行一些测量，并基于此示例生成一些统计数据。

如果OPA100在相关的工作温度下有一个典型的偏置电压为1mv，那么在15个分量的样品中偏置电压的分布可能看起来像这样:

如果在相关的工作温度下，OPA100有一个典型的偏置电压为1mv，那么在15个分量的样本中偏置电压的分布可能看起来像这个图表。

随着样本容量的增加，测量的分布将更接近正态分布。

你已经测量的每个组件的偏移电压，现在你可以计算标准差，但首先，你需要问自己一个问题：我想计算的样本的标准偏差，或人口？换句话说，我应该报告在我面前这15个组件的标准偏差，或者我应该尝试向大家报告，适用于所有OPA100运算放大器的标准偏差？

样品的标准偏差

如果我们有一个样品工作，我们想知道标准偏差的样本这是有意义的——如上所述，在计算算术平均数时，我们总是除以N，而标准偏差涉及数据集中偏差的幂的算术平均数。

继续我们的例子，除以N会告诉你你购买的15个OPA100运算放大器的标准差。

电压值是一个标准偏差的上方和下方的样本平均值。

垂直线表示是一个标准偏差的上方和下方的样本均值的电压值。计算的标准偏差时，我分用N。

数据集的另一种类型的电气工程师经常遇到的是一个数字化的电压信号，就像我们在前面的文章中看到，标准差是量化的方法电噪声．

如果你想知道的标准偏差获得的信号，即被数字化并存储在内存中的特定电压水平，在计算标准差时需要除以N。在这种情况下，获取的信号就是统计样本。

总体标准差

如果我们有一个样品工作，我们想知道标准偏差人口，除以N-1。“总体”是指所获得的数据点提供了具有代表性的样本的整个群体。用N - 1代替N是一种补偿与我们有限的样本容量有关的误差的方法。这种技术被称为贝塞尔校正。

修正是必需的，因为如果我们要计算总体的标准偏差，我们应该使用人口平均．但是我们平时用不上人口平均。我们只有样本均值，这是人口平均的近似值。事实证明，标准偏差是始终较低，当我们使用样本平均值，而不是总体平均值，并且通过N-1代替N-减轻这种效应分裂。

因此，如果你想估计已制造出所有的OPA100运算放大器的偏移电压的标准偏差，你应该从你15成分采样收集数据，然后通过14计算标准差时，除以15来代替。

电压值是一个标准偏差的上方和下方的样本平均值。

垂直线表示是一个标准偏差的上方和下方的样本均值的电压值。计算的标准偏差时，我除以N-1。

同样，如果您想以量化的电压信号的噪声基于相对较短的数据采集周期，则可以通过将N-1分。在这种情况下，数字化数据是样品，并且该信号本身是人口。

你也可以认为这是如下：当我们通过N-1分，我们正专注于基础流程在分析信号中产生噪声，而不是在采集的数据点所代表的时间片内测量这些过程的效果。

样本量的影响

您的工程师的直觉可能告诉你，贝塞尔修正是不是那种那将创造或打破你的分析的东西，而且在许多情况下，这是真实的。在工程应用中，我们经常有数据的丰富，我们直观地认识到这些大型数据集将产生一个样本均值是，对于所有的实际目的，一样的总体均值。因此，没有必要通过N-1，而不是N.划分

但是，我们应该记住，这种关系是建立在入校。随着n的增加，N和N-1之间的差变得相对于所述整体的计算较少显著。因此，使用的N-1适用于当需要这种补偿期望的补偿（即，当样品尺寸小），并且它具有不需要补偿时，没有明显的影响（即，当样品尺寸大）。

结论

我们已经看到，根据分析意图和样本量，可以用不同的方法计算标准偏差。在下一篇文章中，我们将探讨标准差与均方根值之间的关系．