D04 常用概率分布(定稿) 下载本文

第五章 常用概率分布

的概率,p33为至少3人患病的概率。19-26行完成例4-11计算,p41为身高130cm以上者占总数的百分比,p42为身高120cm~128cm者占总数的百分比。23-24行计算80%参考值范围。

实验4-2 正态近似法的计算 完成例4-14、4-15的计算。(程序文件:D04-02.SAS)

程序4-2 正态近似法的计算

行号 01 02 03 04 05 06 07 08 程 序 DATA norm1; mean=19.5 ; std=4.12; x1=20; z1=(x1-0.5 -mean)/std; p1=1-PROBNORM(z1); KEEP x1 p1 ; PROC PRINT; RUN; 行号 09 10 11 12 13 14 15 16 程 序 DATA norm2; mean=360 ; std=SQRT(mean); x2=400 ; z2=(x2-0.5-mean)/std; p2=1-PROBNORM(z2); KEEP x2 p2 ; PROC PRINT; RUN; 程序01-08行完成例4-14的计算,p1为二项分布的正态近似法计算出的至少20名感染的概率。09-16行完成例4-15的计算,p2为Poisson分布的正态近似法计算出的脉冲数大于400个的概率。

实验4-3 正态分布的两个参数?与?的意义和作用 (1)绘制方差相同、均数不同的四条正态曲线,考察?的意义和作用;(2)绘制均数相同、方差不同的四条正态曲线,考察?的意义和作用。(程序文件:D04-03.SAS)

程序4-3 正态分布的两个参数?与?的意义和作用

行号 01 02 03 04 05 06 07 08 09 10 11 12

程 序 DATA stdnorm1; m1=-1; m2=1; m3=2;

pi=3.1415926; c=1/SQRT(2*pi); DO u=-4 TO 5 BY 0.05; f0=c*EXP(-u**2/2); f1=c*EXP(-(u-m1)**2/2); f2=c*EXP(-(u-m2)**2/2); f3=c*EXP(-(u-m3)**2/2); OUTPUT; END;

SYMBOL I=SPLINE; PROC GPLOT; 行号 程 序 14 DATA stdnorm2; 15 std1=0.5; std2=0.7;std3=0.9; 16 pi =3.1415926; c=1/SQRT(2*pi); 17 DO u=-3 TO 3 BY 0.05; 18 f0=c*EXP(-u**2/2);

19 f1=c/std1*EXP(-u**2/2/std1**2); 20 f2=c/std2*EXP(-u**2/2/std2**2); 21 f3=c/std3*EXP(-u**2/2/std3**2); 22 OUTPUT; 23 END;

24 PROC GPLOT; 25 25

PLOT (f0 f1 f2 f3) *u /OVERLAY ; 第五章 常用概率分布

13 PLOT (f0 f1 f2 f3)*u/OVERLAY; 26 RUN; 程序第01-13行绘制标准差均为1,均数分别为0、-1、1、2的四条正态曲线。其中02-03行设置参数,04-11行根据正态分布的密度函数分别计算正态曲线的纵坐标,11-13行将4条正态曲线重叠绘制在一张图内。第14-25行绘制均数都为0,标准差分别为1、0.5、0.7、0.9的四条正态曲线。改变语句行02和15,可设定任意均数和标准差。

实验4-4 正态分布的分布特征 利用SAS软件产生正态分布随机数,考察正态分布的分布特征以及两个正态分布随机变量的和与差的分布特征。(程序文件:D04-04.SAS)

程序4-4 正态分布的分布特征

行号 01 02 03 04 05 06 07 08

程 序 DATA ran1; DO i=1 TO 500; x1=NORMAL(0); x2=2+NORMAL(0); y1=x1+x2; y2=x1-x2; OUTPUT; END;

行号 09 10 11 12 13 14

程 序 SYMBOL; PROC GPLOT;

PLOT (x1 x2 y1 y2)*i; PROC GCHART;

VBAR x1 x2 y1 y2/MIDPOINTS=-8 TO 8 BY 0.5 RAXIS=120 SPACE=0; RUN;

程序第01-08产生来自于正态分布N(0,1)和N(2,1)的随机数各500个,其中第05-06行定义两个新的随机变量,分别是前面两个随机变量的和与差。第09-11行绘制各随机变量按抽样顺序的散点图,12-14行固定横纵坐标绘制各随机变量的频数直方图。

实验4-5 二项分布的分布特征与正态近似 利用二项分布概率函数绘制二项分布的概率函数图,考察其分布特点和正态近似性。(程序文件:D04-05.SAS)

程序4-5 二项分布的分布特征与正态近似

行号 01 02 03 04 05 程 序 DATA bnml; n=20; prob=0.2; DO m=0 TO 20; p=PDF('BINOMIAL',m,prob,n); OUTPUT; 行号 06 07 08 09 10 程 序 END; SYMBOL I=NEEDLE; PROC GPLOT; PLOT p*m; RUN; 26

第五章 常用概率分布

程序01-07行计算总体率prob为0.2的二项分布在n=0,…20时的概率值,第08-10行绘制二项分布概率直条图。改变02行的n和prob值,观察不同参数下二项分布的分布规律,考察二项分布的分布特征及与正态分布的关系。

实验4-6 Poisson分布的分布特征与正态近似 利用Poisson分布概率直条图,考察Poisson分布的分布特征与正态近似。(程序文件:D04-06.SAS)

程序4-6 Poisson分布的分布特征与正态近似

行号 01 02 03 04 05 06 DATA poiss; m1=2;m2=4; DO n=0 TO 50;

p1=PDF('POISSON',n,m1); p2=PDF('POISSON',n,m2); p12=PDF('POISSON',n,m1+m2); 程 序 行号 07 08 09 10 11 12 END;

SYMBOL I=NEEDLE; PROC GPLOT; PLOT (p1 p2 p12)*n; RUN; 程 序 OUTPUT; 程序02行指定Poisson分布的总体均数2和4,03-08行计算n=0,1,…,50时

Poisson分布及其和的概率值,09-12行分别绘出三个概率直条图。改变m1,m2的值重复以上过程,考察不同参数Poisson分布的分布形态变化及与正态分布的关系。

第七节 小结

1.随机变量的概率分布是统计学中极为重要的基本概念。本章介绍了三个最常用的统计分布,包括离散型变量的二项分布、Poisson分布以及连续型变量的正态分布。

2.如果每一次试验只有阳性或阴性两种可能的结果,每次试验阳性结果的发生概率均为?,阴性结果的发生概率均为(1-?),且每次试验结果是相互独立的,那么,重复n次试验,发生阳性结果的次数X的概率分布称为二项分布。二项分布用于描述二分类变量某种观察结果出现的规律。当发生概率?(或1-

?)很小,而观察例数n很大时的二项分布近似于Poisson分布。

3.二项分布概率函数是

P(X)?CnX?X(1??)n?X27

第五章 常用概率分布

其中CnX?n!X!(n?X)!。

Poisson分布概率函数是

P(X)?e???XX!

X的均数n4.二项分布变量X的均数是n?,标准差是n?(1??);频率p?是?,标准差是

?(1??)n。Poisson分布变量的均数是?,标准差是?。

5.正态分布是一种很重要的连续型分布。很多医学现象都近似地服从正态 分布,正态分布也是许多统计方法的理论基础。

6. 确定正态分布的两个参数是均数?和标准差?。由于正态分布曲线下面积与离开均数的标准差倍数有关,与均数和标准差的具体数值无关,因此,实际工作中,常对正态分布随机变量X作Z变换 ,将其转换为标准正态分布,以方便应用。

7. 应用正态分布曲线下面积分布规律,可估计某些医学指标的参考值范围、进行质量控制等。

8. 二项分布在n?和n(1??)均大于5时,以及Poisson分布在?≥20时,其概率可以采用正态分布的方法来近似计算,以使问题简化。

思考与练习

1.简述二项分布、Poisson分布、正态分布的区别与联系。 2.简述控制图的基本原理。

3.简述正态分布资料的双侧医学参考值范围为什么是均数±1.96倍标准差。 4.汉族人中某基因的突变率为30%。现随机抽查10名汉族人,求: 其中没有1名该基因突变的概率;有4名该基因突变的概率。

5.假定某批出厂半年的中药潮解率为6%。从中抽取20丸,求恰有1丸潮解的概率、不超过1丸潮解的概率和有1至3丸潮解的概率。

28

第五章 常用概率分布

6.某溶液平均1毫升中含有大肠杆菌3个。摇匀后,随机抽取1毫升该溶液,内含大肠杆菌2个和低于2个的概率各是多少?

7.某人群中12岁男孩身高的分布近似于正态分布,均数为144.00cm,标准差为5.77cm。

(1) 该人群中80%的12岁男孩身高集中在哪个范围? (2) 求该人群中12岁男孩身高的95%和99%参考值范围。 (3) 求该人群中12岁男孩身高低于140cm的概率。 (4) 求该人群中12岁男孩身高超过160cm的概率。

8.某地白血病的发病率为0.0001,现检查4万人,求没有发现白血病患者的概率和发现白血病患者不超过3人的概率。

9.某车间经检测每升空气中平均约有37颗粉尘,请估计该车间每升空气中有大于50颗粉尘的概率。

作者: 陈峰,教授、博士导师。中国卫生信息学会统计理论和方法专业委员会主任委员,江苏卫生统计学会主任委员,中国统计教育学会理事。从事临床试验统计方法、高维数据分析方法研究。著有《医用多元统计分析方法》,主编《现代医学统计方法与Stata应用》、《医学统计学》等。

29