雷竞技注册
技术文章

正态分布:了解直方图和概率

8月7日,2020年8月经过罗伯特·凯

本文继续探索正常分布,同时审查直方图的概念并引入概率质量功能。

这篇文章是关于在电气工程统计系列,这是我们与我们的讨论拉开序幕的一部分统计分析描述性统计。接下来,我们探讨从信号处理应用的透视3项描述性统计措施

然后我们触及标准偏差 - 具体而言,确定计算的标准偏差时样品尺寸补偿了解标准偏差与根均方值之间的关系

在最后一篇文章中,我们电气工程介绍正态分布,为我们的目前的讨论奠定基础:了解测量数据中的概率。

了解直方图

在上一篇文章中,我们通过参考该直方图的形状开始了对正态分布的讨论:

直方图表示正态分布。
直方图表示正态分布。

我想,大多数人谁在科学或工程工作至少依稀熟悉的直方图,但让我们退一步。

什么是直方图?

直方图的1视觉表示)中存在的一个数据组和2这些值如何经常发生的值)。上面示出的直方图可表示多种不同类型的信息。

让我们想象它代表了在测量差异,舍入到最近的毫伏之间获得的值的分布,在接受不同温度和操作条件的线性调节器的标称和实际输出电压之间。因此,例如,大约8,000测量指示了标称输出电压和实际输出电压之间的0 mV差异,并且大约1,000测量指示了10mV差异。

直方图是总结大量数据的非常有效的方法。通过上面的直方图瞥了一眼,我们可以快速找到数据集中各个值的频率,并识别帮助我们了解测量值和频率之间关系的趋势或模式。

与垃圾箱直方图

当数据集包含如此多的不同值时,我们无法方便地将它们与直方图中的单个栏相关联,我们使用binning。也就是说,我们将一系列值定义为箱子,将群体测量到这些垃圾箱中,并为每个垃圾箱创建一个栏。

以下是由平均值的正常分布式数据生成的直方图,标准偏差为0.6,使用频率而不是单个值:

使用槽,而不是单独的值的直方图。
使用槽,而不是单独的值的直方图。

横轴分为10个等宽度的箱,并且将一个条分配给每个箱。落在箱中的数字间隔内的所有测量有助于相应栏的高度。(水平轴上的标签表示箱子不是相同的宽度,但这只是因为标签值是圆形的。)

直方图和概率

在某些情况下,直方图不会给我们我们想要的信息。我们可以查看直方图并容易地确定测量值的频率,但我们不能轻易确定可能性测量值。

例如,如果我看的第一直方图,我知道,大约8000测量上报监管机构的名义和实际电压之间0V的差异,但我不知道它有多可能该随机选择的测量,或一个新的测量,将报告一个0伏的差别。

这是一个严重的限制,因为概率回答了极为常见的问题,有什么机会......?

我的线性稳压器的机会有什么机会,输出电压误差小于2 mV?我的数据链接误码率高于10的机会是什么?-3还是噪声会导致输入信号超过检测阈值是多少?等等。

此限制的来源仅仅是直方图没有清楚地传达样品尺寸,即,测量的总数。(理论上,测量的总数可以通过增加直方图所有的酒吧值决定,但这将是繁琐和不精确的。)

如果我们知道样本大小,我们可以通过样本大小划分出现的次数,从而确定的概率。让我们来看看一个例子。

直方图如何通过将样本大小划分出现的次数来帮助我们确定概率。
直方图如何通过将样本大小划分出现的次数来帮助我们确定概率。

红色虚线围杆少报告电压误差小于2 mV和酒吧里面写的数字表示出现了这三个误差电压的确切人数。这三个数字的总和是23548。因此,基于这一数据收集工作,获得低于2毫伏的错误的概率是23548/100000≈23.5%。

概率密度函数

如果我们在创建直方图时的主要目标是传达概率信息,我们可以通过将所有发生计数除以样本大小来修改整个直方图。

所得的情节的近似值概率质量功能。例如:


直方图描绘了近似概率密度函数,发现通过样本规模将所有出现计数。

直方图描绘了近似概率密度函数,发现通过样本规模将所有出现计数。

所有我们真正做的是改变在垂直轴上的数字。然而,现在我们可以看一个单独的值或一组值,并很容易地确定发生的概率。

我想澄清以下细节:我说我们近似当我们采用直方图并通过样本大小划分计数时的概率质量功能。真正的概率质量函数表示概率的理想化分布,这意味着它需要无限数量的测量。

因此,当我们使用现实的样本尺寸时,从测量数据产生的直方图给我们提供了概率质量函数的近似。

概率质量随概率密度

值得强调这一点概率质量函数是概率密度函数的离散等同物(我们讨论过在上一篇文章中)。

尽管概率密度函数是连续的,当我们整合在指定范围内的函数,概率密度函数离散提供的概率值,并为我们提供了一个特定值或二进制值相关联的概率。

这两个功能传达一个变量或波形相同的一般统计信息,但他们以不同的方式做到这一点。

注意两个名称之间的差异:概率的垂直轴大量的功能指示的质量,如在数量,概率。概率的垂直轴密度函数表示相对于水平轴概率的密度;我们要整合这密度沿着以便产生水平轴数量概率。

结论

我们已经覆盖概率质量和密度的功能,现在我们已经准备好学习累积分布函数,并从标准差的角度审视正常的分布概率。这些都将是我们的下一篇文章的主题。

1条评论
  • j
    Jstackeaa 2020年8月14日

    在直方图伟大的附加信息。我的太阳能系统的输出看起来就像您的费用。这些都用遍了多种类型的数据。

    喜欢。 回复