雷竞技注册
技术文章

寻找统计关系:相关,因果关系和协方差

2020年9月16日经过罗伯特·凯

本文介绍了一种统计措施,有助于我们得出关于一个变量如何影响另一个变量的结论。

在本系列电气工程统计中,所有关于工程电路主任Robert Keim都会分解在设计过程中可以应用的高级定义和统计概雷竞技注册念的示例。您可以在下面列出以下列表中赶上文章或跳到下面的“相关性和因果关系”部分。

  1. 电气工程师统计分析介绍
  2. 描述性统计
  3. 平均偏差,标准偏差和信号处理方差
  4. 标准偏差计算中的样本大小补偿
  5. 介绍正态分布(AKA高斯分布)
  6. 正态分布:直方图和概率
  7. 正常分布数据中的累积分布函数
  8. 参数测试,偏斜和峰氏症

相关性与因果关系

让我们说我们有一个让我们遇到麻烦的无线通信系统。误码率(BER)从一个字段测试急剧变化到下一个字段测试,并且这种不稳定行为没有明显的原因。To make matters worse, the field tests are not even close to controlled experiments, and there are quite a few factors—thermal and atmospheric conditions, vibration, RF interference, EMI from nearby equipment, orientation, relative velocity—that could be affecting the system’s performance.

处理这种情况的一种方式是选择最有可能严重影响BER的因素,收集一些数据,并寻找因果关系。由于往往很难证明因果关系,因此我们的分析实际上将量化相关性然后,我们可以假设相关性指示因果关系(这是有风险的)或通过从精心设计的实验中收集新数据来证明因果关系。

因此,寻找因果关系以搜索相关性,并且相关性从协方志开始。

变化在一起的变量

描述性统计措施在a中讨论了称为差异之前的文章还涵盖了标准偏差。方差(由σ表示2)是以数据集中的随机偏差为单位表示的平均功率。我们计算方差如下:

\ [\ sigma ^ 2 = \ frac {1} {n-1} \ sum_ {i = 1} ^ {n}(x_i- \ mu)^ 2 \]

其中n是数据集中的值数(即,样本大小)和μ是平均值。

让我们说,我们通过将系统脱离几个现场测试并存储由环境温度和BER组成的许多有序对进行调查。例如,我们可以在5分钟的操作期间计算平均BER,然后在相同的间隔期间对该数据进行平均温度对。然后我们在未来五分钟的间隔内重复测量程序,并依此类推。

温度和BER数据将具有自己的单独方差,即给定数据集中的值的趋势,以偏离相同数据集的平均值。但我们也可以计算出来CO.方差,它捕获了两个数据集中的值的趋势,以线性地变化(或更简洁地,线性地共同不同- “协方差”名称)。

以下三个地图提供了对变量共同变化的意义的视觉解释。

这个曲线代表正协方差:当一个变量增加时,另一个变量增加;当一个人减少时,另一个减少。

这里,一个变量的增加或减少可以对应于其他变量的增加或减少。没有可辨别的模式,可以将一个变量连接到另一个,并且协方差(大约)零。

在此曲线中,温度的增加对应于BER的减少,反之亦然。因此,这些值变化在一起,这意味着协方差不能为零,但由于这种“一起”在相反方向上发生,因此协方差是负的。

计算协方差

以下数学关系被定义为两个变量x和y的协方差:

\ [\ operatorname {cov}(x,y)= \ operatorname {e} {{\ big [}(x-\ operatorname {e} [x])(y- \ operatorname {e} [y]){\大的 ]}}\]

对于具有样本大小的离散数据,我们有

\ [\ operatorName {cov}(x,y)= \ frac {1} {n-1} \ sum_ {i = 1} ^ {n}(x_i- \ operatorname {e} [x])(y_i- \OperatorName {e} [y])\]

您可能不熟悉E [x]表示法。“e”代表“预期值”,其等于算术平均值。(There is a subtle conceptual distinction between expected value and mean, but that’s a topic for another article.) I wanted to introduce this notation because the concept of an expected value gives us another way to think about the mean of a data set—it’s the value that we预计在此预期值具有最高的发生概率的情况下,下一个测量。

协调性公式是直观的感觉,如果你思考一两分:

  • X数据集中的偏差(两个幅度和极性)乘以Y数据集中的偏差。
  • 正负或负面既有阳性的两个数据集中的相应偏差将为求和产生正数量。
  • 如果一个偏差为正,并且相应的偏差为负,则贡献将是负的。
  • 当我们划分求和的结果时N-1,我们正在平均所有这些贡献,从而产生指示的值
    • 两个数据集中的值倾向于偏离相同的方向(即,正协方差),
    • 倾向于偏向相反的方向(负协方差),
    • 或者没有倾向于偏离(零协方差)。

结论

协方差量化了两个随机变量呈现的线性相关性。然而,协方差值难以解释,并且在下一个文章中,我们将讨论两个修改版本的协方差,使相关性分析更方便。