流行病学研究的选题和设计1.5 下载本文

第六章 流行病学研究的选题和设计

是否适合罕见病 研究多种暴露 研究多种结局 频率指标 联系指标 潜在偏倚 实施难易度 研究周期 研究费用 使用频率 因果关系 证据强度 不适用 适用 适用 患病率 OR 选择/信息 易 短 低 高 非因果 低 适用 适用 不适用 OR 不适用 不适用 适用 发病率 RR 不适用 不适用 适用 发病率 RR 选择/信息 不易 长 高 不高 因果联系 最高 选择/信息/混杂 信息/混杂 易 短 低 高 由果推因 较高 不易 长 高 不高 因果联系 高 四、样本含量的估计

在研究工作中,我们经常会遇到这样的问题,比如,要了解某地高血压的患病率,应该调查多少人?假定要比较贫血患者服用某种药物前后血红蛋白平均增加量有无不同,应该调查多少病人?此类问题涉及样本含量的估计。

(一)样本含量估计的意义

样本含量(sample size)估计充分反映科研设计中“重复”的基本原则,是在保证研究结论具有一定可靠性的前提下所需要的最小观察单位数,常需在研究设计阶段对样本含量进行科学地估计。样本含量过小过大都有其弊端:样本量过大,诚然会降低抽样误差,但同时会增加实际工作的困难,导致人力、物力和时间上的浪费;过多观察对象的引入,可能影响调查数据的质量;另外,过大的样本量虽可得到统计学上的差异,但缺乏实际推广意义。样本含量过小,抽样误差则会较大,所得研究指标不稳定,用以推断总体的精密度和准确度较差;此外,样本含量越小,检验功效亦越低,会使应有的差别不能显示出来,出现“假阴性”结果。因此正确地估计样本含量是实验设计中的一个重要环节。

但是,样本含量的估算又是个比较复杂的问题,从样本含量的估算方法上看,有三种途径:一种是经验法,即根据前人的研究结果总结的经验或者咨询同行专家而确定样本例数,该方法较为粗略;一种是查表法,是根据已知的条件查样本例数估计表而确定样本含量,但该方法易受列表的限制;再一种计算法,即根据确定的条件代入专用公式计算而确定样本含

13

第六章 流行病学研究的选题和设计

量,此种方法便于掌握,也最为常用。本节从实际应用的需要出发,分别针对描述性研究和分析性研究或实验研究所需的样本量作一估计。

(二)影响样本含量估计的因素

1.第一类错误的概率?,即检验水准,?越小所需样本含量越多。对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大。?通常取0.05或0.01。

2.检验功效1–?或第二类错误的概率?。检验功效越大,所需样本含量越多。一般要求检验功效在0.80及以上。

3.研究因素对研究事件的效应大小,即总体参数间的差值?(容许误差)。?越大,所需样本含量愈小。?可通过预试验估计,或根据专业要求由研究者规定。在分析性流行病学研究中,?与发病率(或暴露率)和RR(或OR)有关,发病率越低或RR越接近1,所需样本含量越大。

4.总体标准差?或总体概率?。?反映研究指标的变异度,?愈大,所需样本含量自然愈多。总体概率?越接近0.5,则所需样本含量愈多。?或?一般未知,多由预试验、查阅文献、经验估计获得。

5.研究中比较组的多少。研究中比较的组别越多,则样本含量越大。

6.欲分析变量的多少。如果一项研究有多个研究变量,根据不同变量估计出的样本含量通常不等,此时应以样本量最大的为研究样本。如果因条件限制不能满足多个研究变量所需的样本量,应分清主要指标和次要指标并尽量满足主要指标所要求的样本量。

对于多因素logistic回归(multiple logistic regression)分析和比例风险分析(proportional hazards analysis),1个自变量(independent variable regression)至少要有10个结局(outcomes)变量,而在多因素线性回归(multiple linear regression)分析中,1个自变量要有20个研究对象。

7.研究所采用的抽样调查方法。一般而言,整群抽样>单纯随机抽样>系统抽样>分层抽样的抽样误差,因此各种抽样方法所需样本量也不同,整群抽样一般需更大的样本量,而分层抽样所需样本量则较少。如果采用多阶段抽样,还要考虑复杂抽样设计(Complex sampling survey)的抽样权重,样本含量的计算更为复杂。后边我们介绍的样本含量的计算都是基于单纯随机抽样,该种方法抽样误差计算简便,也是其它抽样方法的基础。

(三)不同流行病学研究类型的样本含量估计方法 1. 描述性研究中样本含量的估计

14

第六章 流行病学研究的选题和设计

描述性研究的主要目的是估计总体参数,在估算样本含量时主要考虑?,?,?或?,根据研究指标类型的不同可以分为:

(1)单样本均数的样本含量估计 通过抽样调查了解人群某些指标(如血压、身高、总胆固醇等)的平均水平时,其样本含量可通过下式估算:

N?[z???]2 公式 (6-1)

式中N为样本含量,?为容许误差,即样本均数与总体均数之差,?为总体标准差,该指标通常未知,常以S(样本标准差)来代替。Z?是检验水准?下的正态临界值,?有单双侧之分,当取双侧?=0.05时,Z?/2?1.96。为了实际应用方便,公式(6-1)可简写为N?4S2?2。

【例6.1】 欲调查成年男性血清胆固醇含量,根据以往的经验,血清胆固醇含量的标准差为60 mg/dL,要求误差不超过10 mg/dL,若?取0.05(双侧),需调查多少人?

N?4S2?24?602==144

102(2)单样本频率的样本含量估计 通过抽样调查了解人群某种疾病的发病水平时,其样本含量可通过二项分布的原理估算:

N?(z??)2??(1??) 公式(6-2)

上式中?估计的总体患病率,其它指标含义同前。当?取0.05(双侧)时,上式可简写为:N?4?(1??)?2。

【例6.2】某疾病预防控制中心为了制订驱蛔虫计划,编制经费、药品预算,需要抽样调查当地儿童的蛔虫感染率。根据以往的经验,儿童蛔虫感染率为30%左右,若规定容许误差?=0.1? (即?3%),?取0.05(双侧),则样本含量至少应为多少人?

N?4?(1??)4?0.3?0.7==933 22?(0.1?0.3)2. 分析性研究或实验性研究中样本含量的估算

其主要目的在于推断病因假设或者验证病因假设,即推断欲比较的效应间有无差别,因此估算样本含量时除了考虑?,?,?或?外,还需考虑检验效能1–?。根据资料类型

15

第六章 流行病学研究的选题和设计

和统计设计类型的不同,我们从以下四个方面介绍样本含量的估算。

(1) 配对设计两样本均数或单样本均数的检验 主要目的在于了解治疗前后或不同处理方案作用后某项指标有无差异,或样本所来自的未知总体均数是否与已知总体均数相同,其样本含量的估算采用公式(6-3)

N?[(z??z?)??]2 公式(6-3)

式中,Z?是?所对应的正态临界值,使用时只取单侧,其它指标含义同前。 【例6.3】为了解汽车司机的脉搏数是否高于一般人群,某研究者随机抽取了15名汽车司机作预试验,测得其标准差为S=7.2次/分。假如汽车司机的脉搏数高于一般人群3.0次/分才有专业意义,问?=0.05,?=0.10时,需要多大样本含量?

本例S=7.2次/分,?=3.0次/分,?和?均取单侧,查Z界值表,得Z?=1.645,Z?=1.282,代入公式(6-3)

N?[(z??z?)??]2?[(1.645?1.282)7.22]?50

3.0如果为配对设计,则?取?d,N为对子数。

(2)完全随机设计两样本均数的检验,其样本含量的计算采用

N?[(z??z?)??]2(Q1?Q2) 公式(6-4)

?1?1Q1和Q2为两组的抽样比,即Q1=n1/N,Q2=n2/N。当两组观察例数相等时,Q1=Q2?0.5。

【例6.4】 欲比较A,B两种降压药对高血压患者的疗效有无差别。现以收缩压为例,据文献报道:服用A药后血压平均下降26.2 mmHg,服用B药后血压平均下降23.7mmHg,若?=5.0 mmHg,?取双侧0.05,?取0.20,如果两组例数相等,问每组需要多少病例?如A药组样本含量占整个样本含量的60%,则每组又各需多少病例?

已知?=5.0mmHg,?=2.5mmHg,?取双侧0.05,?取单侧0.20,查Z界值表,得Z?=1.96,Z?=0.842。

16