数据分布

如题所述

第1个回答  2022-06-21

又叫做0-1分布,指 一次 随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。
记为: 0-1分布 或B(1,p),其中 p 表示一次伯努利实验中结果为正或为1的概率。
概率计算:
P(X=0)=p0 P(X=1)=p1
期望计算:
E(X)=0 P0+1 P1=P1

表示n次伯努利实验的结果。
记为:X~B(n,p),其中n表示实验次数,p表示每次伯努利实验的结果为1的概率,X表示n次实验中成功的次数。

例子:截止到2015—2016赛季, 曼彻斯特联队在历史上和曼彻斯特城队交手171次, 打进250球丢234球, 拿到了71胜51平49负的战绩。 如果在
2016—2017赛季, 曼彻斯特联队与曼彻斯特城队将进行6场比赛, 求曼
联2胜1平3负的概率是多少?

期望计算:

在二项分布试验和多项分布试验中, 每次试验结果的发生概率是不变的, 而超几何分布试验结果的概率会随着每一次试验的发生而改变。超几何分布试验则是在有限总体中进行无放回抽样(总体数量不断减少) , 所以每次试验开始前, 每种试验结果发生的概率将发生变化。
超几何分布是一种重要的离散型概率分布, 它的概率质量函数可以这样定义: 假设有限数据总体包含N个数值(个案) , 其中符合要求的个案数量为m个, 如果从该有限数据总体中抽取n个个案, 其中有k个是符合要求个案的概率计算公式为:

泊松概率分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。 通俗的解释为: 基于过去某个随机事件在某段时间或某个空间内发生的平均次数, 预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。 泊松分布经常被用于销量较低的商品库存控制,特别是价格昂贵、 需求量不大的商品。

指数分布与泊松分布正好互补。 泊松分布能够根据过去单位时间内随机事件的平均发生次数, 推断未来相同的单位时间内随机事件发生不同次数的概率。 而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内, 随机事件发生的概率。

· λ是μ的倒数, 可以解释为单位时间内随机事件发生的次数。
例子:某著名手机厂商生产的某型号手机平均10年才出现一次大的故障。 为了制造销售热点, 公司想将保修期提高到15年, 但又不想增加过多的成本投入, 所以需要考虑以下问题: ① 该型号手机使用15年后还没有出现大故障的比例; ② 如果厂家想提供大故障免费维修的质量担保, 基于成本考虑, 保修数量不能超过全部产量的 20%, 那么提供多长的保修年限最适宜。
该型号手机使用15年后还没有出现大故障的比例。 已知该型号的手机平均10年发生一次大的故障, 所以, 单位时间(1年) 内, 发生故障的次数为λ=1/10=0.1, 代入指数分布的概率计算公式:

从表中可以看到: 担保2年, 需要维修的手机比例就达18.1%, 担保3年, 出现大故障的手机比例增加到25.9%, 已经超过20%。 所以, 厂家应以2年为免费维修担保期。 由此可见, 如果厂家没有经过数据分析,盲目地推行15年的保修期承诺, 将会给企业造成意想不到的沉重负担。

均匀概率分布是古典概率分布的连续形式, 是指随机事件的可能结果是连续型数据变量, 所有的连续型数据结果所对应的概率相等。均匀概率分布的概率密度函数为:

· μ表示均值;
· σ表示标准差。

如果抛硬币,抛出7次正面,3次反面,如何判断这个硬币的概率分布。注意我们都是贝叶斯主义者,硬币的概率是个随机变量,不要用频率主义去把概率当作一个定值。思考最简单的伯努利过程,7次正面,3次反面,概率分布是关于x的函数(随机变量),那么这个类似 Beta分布的函数就是:

均值抽样分布是样本参数信息与总体均值之间的桥梁, 为下一步推断总体均值做好了准备。均值抽样分布有Z分布和T分布,可见下列使用条件表。

有卡方分布和F分布

χ2是希腊字母, 读作“卡方”; s2代表样本方差; · σ2代表总体方差; (n-1) 代表自由度

·χ2代表卡方统计量; e是自然底数, 等于2.72;
·v代表自由度, 等于样本容量n-1;
·c代表调节常数, 使得卡方分布曲线下方的总面积等于1。

从卡方统计量的计算公式可知, 卡方分布能够用于从样本方差到总体方差的推断性分析。 除此之外, 卡方分布还能用于非参数检验, 被称为卡方检验。

F分布处理的则是两个总体之间的关系, 即通过两个样本之间的关系推导出两个总体之间的关系。

由F统计量的计算公式可知, F分布能够用于推断两个总体方差之间的比值关系。