统计学知识点整理 贺佳 下载本文

自由度越小,则t 值越分散,t分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P)就越大;与u分布曲线相比,t分布低平;

自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于∞时,t分布即为u分布。 13、

15、假设检验与置信区间的关系

(1)、置信区间可用于回答假设检验的问题(2)假设检验可提供置信区间不能提供的信息。 16、方差分析的基本思想和应用条件

根据资料的设计类型,即变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用加以解释,通过比较不同来源变异的均方(MS,方差),借助F分布做出统计推断,从而了解该因素对观察指标有无影响。

应用条件:各样本是相互独立的随机样本;各样本来自正态分布;各样本方差相等,即方差齐。 28、R×C表χ2检验的应用注意事项

(1)行×列表的χ2检验要求理论频数不宜太小,要求不宜有1/5以上的格子的理论频数小于5,或有一个理论频数小于1。

(2).如果以上条件不能满足,可采用:增加样本含量、删去某行或某列、合理地合并部分行或列、用精确概率法

(3)多个率或构成比比较的χ2检验,结论为拒绝H0时,仅表示几组有差别,并非任2组之间都有差别。若要了解之,可进行χ2表的分割。

(4)单向有序列联表,若效应有强弱的等级,如+,++,+++,最好采用后面的秩和检验。χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。

(5)行列两种属性皆有序时,可考虑趋势检验或等级相关分析。 29、χ2检验的用途

(1)推断两个或多个总体率之间有无差别(2)推断两个或多个总体构成比之间有无差别(3)两个变量之间有无关联性(4)频数分布的拟合优度检验 31、参数检验的特点主要有:

①对总体参数(如μ 或π)进行估计或检验是统计推断的主要目的;

②要求总体分布已知。如连续性资料符合正态分布,计数资料符合二项分布或Poisson分布等; ③统计量有明确的理论依据(如t分布、u分布);

④有严格的使用条件。参数检验要求总体分布符合正态分布、总体方差齐和数据间相互独立。 32、非参数检验的主要优点:

①适用范围广②受限条件少③具有稳健性④方法简便,易于理解和掌握。 33、秩和检验的应用范围很广,主要用于:

①样本所代表的总体分布不易确定;②分布呈非正态而又无适当的数据转换方法;③观察指标不能或未加精确测量,如有序分类资料等样本的假设检验问题,均可用非参数统计方法。 43、最小二乘法原则:即保证各实测点至直线的纵向距离的平方和最小。 44、线性回归资料的要求

(1)直线相关分析要求 X与Y 服从双变量正态分布;

(2)直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量,也可以是能精确测量和严格控制的非随机变量;

(3)对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。

45、相关与回归的区别与联系

区别:在资料要求上,回归分析要求应变量(Y 变量)服从正态分布的随机变量,自变量(X 变量)可以是固定的非随机变量,一般称为Ⅰ型回归模型。当两个变量X、Y 为服从双变量正态分布的随机变量时,这种资料若要进行回归分析,一般称为Ⅱ型回归模型。

联系1. 对一组数据若同时计算r 和b,它们的正负号是一致的,r 为正,说明两变量间的相互关系是同向变化的。b 为正,说明X 增加一个单位,Y 平均增加b 个单位。2.r 和b 的假设检验是等价的,即对同一样本,二者的t值相等。由于r 的假设检验既可直接查表,计算又比较方便,而b 的假设检验计算较繁,故在实际应用中常以r 的假设检验代替对II 型回归模型中b 的假设检验。 45、实验设计的基本要素(1)处理因素(2)受试对象(3)实验效应

46、实验对象分为四类:(1)动物实验(2)临床试验(3)现场试验(4)社区试验

47、实验效应指标选择要求(1)客观性:主观指标和客观指标。(2)灵敏性和特异性:(3)精确性: 48、实验设计的基本原则:对照原则;随机化原则;重复原则 49、完全随机设计

优点:(1)设计简单;(2)易于实施;(3)出现缺失值时,仍可进行统计分析。

缺点:(1)受试对象随机化后,因个体变异的客 观存在,小样本完全随机分组后,可能会出现两组间不均衡;(2)试验检验效率不高(如与随机区组设计相比),且只能分析单因素。 50、配对设计和完全随机设计相比

优点:抽样误差较小,实验效率较高,所需样本量也较小。

缺点:当配对条件未能严格控制造成配对失败或配对欠佳时,反而会降低效率。

51、常见的对照有:空白对照、实验对照、标准对照、自身对照、相互对照和历史对照等。

52、随机化通常借助计算机产生的随机数字或用随机数字表实现。随机化包括:随机化抽样、随机分组和随机实验顺序。

53、重复是指在相同实验条件下对同一观测指标进行多次重复观测,以提高实验的可靠性和科学性,重复的作用是估计实验误差和降低实验误差。

54、影响样本量估计的因素有:(1)I型错误α;(2)II型错误β;(3)容许误差δ;(4)总体标准差σ;(5)资料类型和单双侧检验。 55、前后测量设计与配对设计的区别

56、重复测量资料方差分析的应用条件:

(1)正态性:处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服从正态分布;(2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同。(3)“球对称”:各时间点组成的协方差阵(covariance matrix)具有球形性(sphericity)特征,即“球对称”。 57、重复测量设计的优缺点

优点:每一个个体作为自身的对照,克服了个体间的变异。分析时可更好地集中于处理效应。因重复测量设计的每一个个体作为自身的对照,所以研究所需的个体相对较少,因此更加经济。

缺点:滞留效应(Carry-over effect):前面的处理效应有可能滞留到下一次的处理。潜隐效应(Latent effect):前面的处理效应有可能激活原本以前不活跃的效应。学习效应(Learning effect):由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。 58、协方差分析的基本思想

将那些对观察指标Y(应变量)有影响的定量变量X作为协变量,建立应变量Y随协变量X变化的线性回归关系,并利用这种回归关系把X值化为相等后再进行各组Y的修正均数(adjusted mean)间比较的假设检验。

59、应用协方差分析的条件

一是与方差分析的应用条件相同:(1)各样本必须是相互独立的随即样本(2)各样本来自正态分布总体(3)各总体方差相等,即方差齐性。二是回归系数有统计学意义且回归系数相同。 60、多重线性回归的应用(1)统计预测与估计(2)统计控制(3)影响因素分析 61、多重线性回归应用条件

(1)Y与X1,X2......Xm之间具有线性关系。(2)各观测值Yi(i=1,2,3....n)之间相互独立。(3)残差服从均数为0,方差为 2的正态分布。 62、Logistic回归模型的应用条件

(1)满足独立性,即各观察单位间相互独立,因此不适用传染病、遗传性疾病或家簇聚集性疾病等的发病因素研究;(2)Logit(P)与自变量成线性关系,自变量是二分类变量时不需考虑,当自变量为连续性或等级变量时,需检验该条件是否成立,条件不成立需探讨自变量X合适的量化形式,以便呈线性关系后纳入模型;(3)自变量之间不存在多重共线性。 63、Logistic回归的意义:

多重线性回归是研究一个正态随机应变量Y和多个自变量X的数量关系。应变量Y是连续性随机变量,要求应变量Y与X呈线性关系并满足相应条件。但在医学研究中常研究应变量或称反应变量Y为二分类变量(如患病与未患病、阴性与阳性等)或多分类变量(如治疗效果:痊愈、有效、无效等)布的条件,这时线性回归分析就显得无能为力,这是线性回归分析就显得无能为力,而logistic回归(logistic regression)分析则是处理该类资料的有效方法。 64、生存资料的主要特点:

(1)疗效指标既有结局变量,又有时间变量。(2)随访研究中,研究对象可能会失访或死于其他疾病,或者中途退出试验。(3)由于研究经费和时间限制,不可能等到所有观察对象都出现结局才终止研究。这样势必有部分观察对象的信息是不完整的。 65、生存率与生存概率的区别:

生存概率是单个时段的结果;生存率实质上是累积条件生存概率,是多个时段的累积结果 66、截尾的主要原因:失访、退出、终止等 67、ROC曲线的意义

(1)ROC曲线反映了灵敏度与特异度间的平衡 (增加灵敏度将降低特异度;增加特异度将降低灵敏度)。 (2)在ROC曲线空间,如果曲线沿着左边线,然后沿着上边线越紧密,则试验准确度越高。 (3)在ROC曲线空间,如果曲线沿着机会线(45度对角线)越紧密,则试验准确度越低。 (4)在诊断界值(cutpoint)处的正切线的斜率就是该试验值对应的阳性似然比(likelihood ratio,LR)。在ROC曲线空间的左下角LR+最大,随着曲线从左下往右上方移动,LR+逐渐减小。(5)ROC曲线下面积是重要的试验准确度指标。