综合复习题(2013) 下载本文

1.最近的医学研究表明,有一种叫“佳乐宁”的物质会影响人们对高脂肪食物的需求,一个人脑内所产生的这种物质愈多,想吃高脂肪食物的欲望就越高。近来,有一家制药公司在研制一种实验药物以阻断“佳乐宁”的产生或传导,又不能影响对健康食物的食欲。该公司一位神经学科学家相信此药物在控制肥胖上将会非常有效,并相信每日规律地服用此药将导致体重下降。于是展开一项实验,随机抽取15位志愿的肥胖女性并提供6个月的药量,分别记录每位受试者实验开始和结束后的体重。数据如下:

受试者编号 试前体重(磅) 试后体重(磅) 1 165 145 2 143 137

3 175 170 · · · · · ·

· · · 15 169 154

对此数据分别用Excel和SPSS进行分析,结果如下(显著性水平为0.05): 表4.1.1 Excel运算结果 平均值 方 差 观测值 假设平均差 df(自由度) t Stat(t值) P值(单尾) t 单尾临界值 P(值(双尾) t 双尾临界值 受试前体重 162.07 259.35 15 0 14 7.71 0.000 1.76 0.000 2.14 受试后体重 150.27 237.92 15 表4.1.2 SPSS运算结果

要求:根据上述资料回答下列问题:

(1)上述简单统计推断分析的是( )。

A.单总体均值检验 B.成对样本均值的检验 C.来自两个总体的独立样本均值的检验

(2)根据检验目的,写出原假设和备择假设,并说明各自的含义。

(3)根据样本统计量的计算结果和相应显著性水平的临界值的对比,说明检验结果和理由。

(4)根据上述P值,说明检验结果和理由。

(5)写出受试前与受试后体重差的95%的置信区间。

2. 十六个不同的零食所含卡路里数据如下图所示(单位:卡):

热量茎叶图

Frequency Stem & Leaf 1.00 11 . 2 2.00 11 . 88 5.00 12 . 33344 2.00 12 . 88 1.00 13 . 2 1.00 13 . 6 1.00 14 . 2 3.00 Extremes (>=164) Stem width: 10 Each leaf: 1 case(s)

(1)求出该组数据的众数和中位数;

(2)说明均值、众数、中位数哪一个更具有代表性?说明理由。

3.一家电话公司制订出一个广告计划,以增加客户长途电话的通话时间。为了解该计划的优

点,公司对其进行小规模推广试验,他们从推广目标客户中随机抽取100位客户作为样本,并记录这100位客户在过去一个月长途电话的通话时间,然后公司在接下来的一个月里,在给用户的声明中加上一份特殊的广告传单,然后再记下这些客户该月的通话时间,数据如下表所示(分钟)。

客户 1 2 3 ?? 100 加入广告传单前 92 304 48 ?? 217 加入广告传单后 129 249 214 ?? 487 运用Excel对以上样本数据进行分析,分析结果如下: 描述统计结果 推广后 均值 202.68 N 100 标准差 147.106 均值的标准误差 14.711 推广后 推广前

均值 202.68 171.89 N 100 100 标准差 147.106 133.051 均值的标准误差 14.711 13.305 推广后-推广前均值差的检验结果

均值之差的95%置信区间 标准差 68.41 标准误 Lower 30.79 6.84 17.22 Upper 44.36 t 4.50 自由度 99 双侧P值 .000 d 注:d为推广前后样本数据之差di的均值 试根据上述结果回答以下问题(本题共12分)

(1)公司对同一组客户测量他们前后的反应,这属于什么类型的样本?这样做的好处是什么?

(2)公司是否可以认为,给用户的声明中加上一份特殊的广告传单对于提高用户长途电话的通话时间是有帮助的?请写出对应的原假设、备择假设及其含义,并给出检验结果及理由。

(3)给出广告传单推广后比推广前其用户长途电话的平均通话时间之差的95%的置信区间,并简要说明其含义。

4.为了研究地理位置对商场销售额影响,研究者分别调查了商业街(9家)、居民区(7家)、CBD(8家)和开发区(7家)共31家零售商,调查得人均月销售额数据如下表所示:

不同位置商场人均月销售额 单位:万元/人

1 2 3 4 5 6 7 8 9 样本 编号 商业街 21 25 18 18 16 24 28 22 24 地理位置 居民区 CBD 11 18 9 16 15 24 16 18 18 15 20 18 16 16 - 10 - 开发区 12 15 20 9 14 16 10 - -

利用Excel分析结果如下: 差异源 离差平方和 自由度 组间 组内 总计 308.3344 401.8591 710.1935 均方 F —— —— P值 0.00134 —— —— F (??0.05临界值) 2.960351 —— —— 27 30 —— 要求:

(1)根据已知资料,填出上述表中空白格的数字

(2)写出上述分出方差分析的原假设和备择假设,并说明其含义 (3)说明分析结果,并说明理由

5.为了研究初中成绩与高中成绩的关系,随机抽查50名高一学生,登记其初三成绩与高一成绩,并利用SPSS统计软件进行一元线性回归分析,结果输出如下:

判定系数R(相关系数).795判定系数.632修正后判定系数.625估计标准误差7.22091 方差分析回归平方和残差平方和总计离差平方和4307.2062502.7946810.000自由度14849均方4307.20652.142F值82.606P值.000 回归系数回归系数常数项初三成绩B26.444.651标准误5.396.072t值4.9019.089P值.000.000 试根据以上结果回答以下问题:

(1)说明学生初三成绩与高一成绩之间的相关关系的形态; (2)写出估计的回归方程并解释回归系数的实际含义; (3)对上述拟合的回归方程进行评价。

6.为研究少年儿童成长发育状况,某研究所的A调查人员在某城市抽取100名7——17岁的少年儿童作为样本,B调查人员则抽取了1000名7——17岁的少年儿童作样本,请回答以下问题,并解释。

(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较高?或者这两组样本的平均身高相同。

(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的身高标准差较大?或者这两组样本身高的标准差相同。

(3)哪一位调查研究人员有可能得到这1000名少年儿童的最高者或最低者?对两位研究人员来说这种机会是相同的吗?

7.某关于居民收入的研究报告将居民按收入高低划分为高收入组(上四分位数以上者)、较高收入组(介于中位数与上四分位数之间者)、较低收入组(下四分位数与中位数之间者)和低收入组(低于下四分位数者),报告称,今年低收入组人群比重较去年有明显下降,说明居民收入有所提高。请从统计学角度指出该报告中有何错误?为什么?

8. 美国洛杉矶湖人队2000年14名球员的薪水(百万美元)如下表:

球 员 奥尼尔 布莱恩特 霍利 赖斯 费希尔 福克斯 奈特 薪 水 17.1 11.8 5 4.5 4.3 4.2 3.1 球 员 哈伯 格林 乔治 肖 萨利 卢 塞莱斯坦

薪水茎叶图

薪 水 2.1 2 1 1 0.8 0.7 0.3

为了确定新年度球员薪水水平,球员工会与老板进行谈判。球队老板计算了14名球员的平均收入,其数值为410多万美元,老板觉得球员薪水太高了,不能再提高了。而球员工会代表主张用中位数分析球员薪水水平,并绘制了茎叶图以支持自己的说法。

要求:请说明球队老板和球员工会代表的争执原因是什么?你认为谁的主张更合理?为什么?

9. 对2006年下列31个省市进行分析,调查得到各省市人均GDP等6个指标,各省市编号如下表4.3.1:

表4.3.1 省份编号 省份 编号 省份 编号 省份 编号 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 1 2 3 4 5 6 7 8 9 10 11 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 12 13 14 15 16 17 18 19 20 21 22 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 23 24 25 26 27 28 29 30 31 利用SPSS进行分层聚类,结果如下图1:

要求:根据上述资料回答以下问题:

(1)根据上图,如果将上述31个省市分为三类,则这三类分别包括那些省份; (2)根据上图,如果将上述31个省市分为五类,则北京与那些省市分为一类。

10. 某大学教授喜欢游泳,他记录了每次游2000米所用的时间(分钟)和游完泳后的脉搏次数,共记录了23次。该教授分析了时间与脉搏之间的关系,计算得二者的相关系数为-0.74598,线性回归方程为脉搏?479.9?9.695?时间,他对相关系数和回归方程进行了统计检验,检验结果表明在0.05的显著性水平下均显著。

要求:(1)结合上面资料,说明该教授游泳时间与脉搏次数的关系。

(2)本周末该教授游2000米用时34.3分钟,请利用上面回归方程预测他游完时的脉搏次数。该教授实际上游完时的脉搏次数为152,你的预测与实际数一致吗?应怎样理解二者的差异。

11. 为了研究小麦品种和施肥方式对产量的影响,针对三种品种和两种施肥方式进行实验,得方差分析数据如下:

表2-1 方差分析表

要求:根据上述数据回答以下问题:

(1)试写出方差分析的原假设和备择假设,并解释其含义; (2)分析品种、施肥方式及其交叉作用对小麦产量的影响;

12. 某公司对16种润滑油进行了测定,其“氧化安定性”指标用旋转氧弹方法测定。人们普遍认为,基础油中的硫含量和碱氮含量对润滑油氧化安定性有着不同的影响。现用相关与回归分析方法对其氧化安定性影响进行分析,分析结果如下。试回答以下问题。

表3-1 Correlations(相关分析)硫含量X1硫含量X1PearsonCorrelation(Pearson相关系数)Sig. (2-tailed)(双侧P值)NPearsonCorrelation(Pearson相关系数)Sig. (2-tailed)(双侧P值)NPearsonCorrelation(Pearson相关系数)Sig. (2-tailed)(双侧P值)N1.16.293.27116.516*.04116碱氮含量.293.271161.16-.558*.02516旋转氧弹.516*.04116-.558*.025161.16碱氮含量旋转氧弹*. Correlation is significant at the 0.05 level (2-tailed). 表3-2 Model Summary(可决系数分析)AdjustedR Square修正后系数).788Std. Error oftheEstimate(估计标准误)34.3888Model1R.904aR Square (可决系数).817a. Predictors: (Constant), 碱氮含量, 硫含量X1 表3-3 ANOVA(方差分析)Sum ofSquares(离差平方和)Regression(回归平方和)Residual(残差平方和)Total68467.2615373.6883840.94bModel1df21315Mean Square(均方)34233.6281182.591F28.948Sig..000aa. Predictors: (Constant), 碱氮含量, 硫含量X1b. Dependent Variable: 旋转氧弹 表3-4 Coefficients(回归系数分析)aUnstandardized StandardizedCoefficients Coefficients(非标准化系数)(标准化系数)BStd. ErrorBeta(Constant)(常数项)硫含量X1碱氮含量180.63010.708-.60717.7461.789.097.743-.776Model1t10.1795.985-6.246Sig.(P值).000.000.000a. Dependent Variable: 旋转氧弹 要求:

(1)根据相关分析结果从相关方向、相关程度等方面说明硫含量、碱氮含量与旋转氧弹之间的关系;

(2)写出对回归方程整体线性关系进行检验的原假设和备择假设,并根据上述资料说明检验结果及含义(α=0.01);

(3)根据上述资料写出估计的回归方程,并说明对各变量回归系数的显著性进行检验结果及含义(α=0.01);

13. 根据人口普查资料得到14个地区各自的总人口(千人)、受教育年限中位数、总就业人数(千人)、保健服务业就业人数(千人)和家庭收入中位数(万美元)

(1)利用该资料进行主成分分析,得到SPSS运行结果如下:

表6.1.1 主成分分析方差分解

表6.1.2 主成分载荷

要求:根据上述分析结果回答以下问题:

①若要求选择的主成分占总方差的85%以上,请写出选择的主成分; ②请写出前两个主成分与原变量(或原变量的标准化)的线性关系式。 (2)利用该资料进行因子分析,得到SPSS运行结果如下: 表6.2.1因子提取结果(因子载荷)

因子载荷图 要求:根据上述分析结果回答以下问题:

① 写出上述两个因子与各个变量的线性关系式;

② 据上述图2,说明第一因子、第二因子对原变量的代表关系。

14. 为了研究年龄与爱好的关系,随机调查了124人,得数据如下表2.1: 表2. 1 年龄与爱好观察值分布 观测值 戏曲 爱好 合计 歌舞 球赛 年龄 青年 2 35 20 57 中年 10 20 10 40 老年 20 5 2 27 合计 32 60 32 124 利用SPSS对年龄与爱好的相关分析及其检验,结果如下表2.2: 表2.2 卡方检验表

要求:根据上述资料回答以下问题:

(1)根据表2.1,计算年龄与爱好独立情况下的期望频数,并填入下表2.3;

表2.3 期望值 戏曲 爱好 合计 歌舞 球赛 年龄 青年 中年 老年 合计 57 40 27 32 60 32 124

(2)根据表2.2,说明卡方检验结果,并写出其原假设和备择假设。

15. 为了研究公立大学与私立大学学生费用支出情况,随机抽取了15名公立大学学生和10名私立大学学生,统计了他们每年的花费金额(单位:万元),比较其差异情况。计算结果如下:

统计量 均值 方差 公立大学 7.56 5.86 双总体等方差均值之差检验

私立大学 16.51 5.34 95%的置信区间 双侧均值 标准 t 自由度 P-值 之差 误差 Lower(下限) Upper(上限) -9.22 23 0.00 -8.95 0.97 -10.96 -6.94 要求:

(1)计算两者的合并方差;

(2)数据能否支持公立大学费用确实低于私立大学?请写出原假设和备择假设,并说明显著性水平为0.05的检验结果;

(3)请给出二者差值的95%的置信区间

16. 以下是从某个学院上学期所有参加统计学考试的同学中随机抽取的男生和女生的成绩情况。 平均分 标准误差 中位数 众数 标准差 峰度 偏度 男生 76.630 2.295 78 84 11.927 -0.436 -0.639 女生 78.433 2.886 85 85 14.431 0.894 -1.209 最小值 最大值 观测数 50 94 27 40 95 25 (1)试用描述统计方法对上述27个男同学、25个女同学的考试情况进行比较分析 (2)表中的标准差和标准误差分别表示什么?它们之间有什么关系?

(3)以95%的置信水平,分别对该学院所有男同学、所有女同学的统计学考试平均成绩进行区间估计。已知t0.025(24)=2.064, t0.025(25)=2.060, t0.025(26)=2.056, t0.025(27)=2.052

17. 某汽车经销商委托某高校工商管理学院教授调查研究某城市对家用轿车的需求分析,希望从家庭收入、家庭人口、家庭所在地、住房面积、家庭成员所从事职业等方面分析这些因素对家用轿车需求量的影响,并要求进行定量分析,建立统计模型,该模型能够用于统计预测。该教授经多次与经销商沟通,设计出调查问卷,并得到经销商的确认。该教授初步提出以下三种调查设想:

方法一:根据该市各居民委员会家庭户数比例,分配样本量,并在各居民委员会中随机抽取样本户,进行问卷调查;

方法二:充分利用学校学生众多的优势,展开调查。具体做法是:根据学校学籍登记表得到学生学号,从中随机抽取一定量的学生,针对这些被抽中学生的家庭进行问卷调查;

方法三:安排该校学生进行街头拦截访问,随机拦访一定量的行人。 根据以上资料,回答以下问题:

1.请说明该调研中调查对象总体是什么?理想的抽样框和抽样单位是什么? 2.请说明上述三种抽样方案各是什么抽样方法,并评价其优劣。

18. .为评价家电行业售后服务质量,随机抽取了100个家庭构成的一个样本,服务质量的等级分别表示为:A:好,B较好,C一般,D较差,E差 调查结果如下:

B D A B C E A D A B C C B C ?. C B C D A C C E D D A A C E E B B C D D A E C D E E B C

(1) 指出上面数据属于什么类型数据?

(2) 可以用什么图形,反映服务质量的分布?

19. 某市教材委员会设计了4本不同的小学教材,为了比较其教学效果,按随机区组实验原则,将小学分为城镇一般小学、城镇重点小学和乡村小学三个区组,分别在每个区组中随机抽取4所小学,它们被随机地指派一种教材,经一年教学后通过统一考试得到各学校的平均成绩(10分制),进行方差分析,数据与结果如下:

城镇一般 城镇重点 乡村小学 教材1 4.5 8.8 5.9 教材2 6.4 7.8 6.8 教材3 7.2 9.6 5.7 教材4 6.7 7 5.2

差异源 SS df MS F 双侧P-值 行 13.68 2 0.034258 列 3 0.512185 误差 6.58 6 — — 总计 23.08 11 — — — F 临界值 5.14325285 4.75706266 — —

要求:

(1)根据已知资料,填出上述表中空白格的数字

(2)写出上述分出方差分析的原假设和备择假设,并说明其含义 (3)说明分析结果,并说明理由

(4)上述方差分析没有考虑教材与学校的交互作用,请说明上述数据能否进行有交互作用的方差分析?

20. 一所大学有3000名男生,其身高服从均值为174cm、标准差为3cm的正态分布。现从中有放回地随机抽取25人作为样本,测量其身高。

要求:

(1)理论上讲,可以形成多少个不同的样本?(请写出其表达式,不用计算结果); (2)这些样本的均值(x)服从什么样的分布?其期望值是多少?

(3)为了衡量这些样本均值(x)的差异程度,需计算什么样的统计量?请写出其表达式和计算结果。

传统题

一、平均数——加权算术平均数

1.某商业企业的资料如下:

劳动生产率 (万元) 1.5-2.0 2.0-2.5 2.5-3.0 合计 (1)计算全公司的销售额; (2)计算全公司的平均劳动生产率。 解:

(1)各组组中值依次是:

职工数 (人) 2800 9000 2000 13800 劳动生产率 (万元) 1.5-2.0 2.0-2.5 2.5-3.0 合计 全公司的销售额:

组中值 (万元) 1.75 2.25 2.75 -- ∑(各组组中值×职工人数)=1.75×2800+2.25×9000+2.75×2000=30650 万元 (2)全公司平均劳动生产率 x??xf?f?30650?2.22(万元/人)

13800二、时间数列

1.平均发展水平 2.平均发展速度 3.长期趋势预测

2.某地区年末人口数如下: 1996 1997 1793 1998 1726 1999 1760 2000 1930 人口(万人) 1656 (1)计算1996年到2000年的平均人口

yy116561930?y2??yn?1?n?1793?1726?1760?2?22?1768(万人) y?2n?14(2)平均发展速度

G?41930?103.90% 1656时间(t) 1 2 3 4 5 6 7 8 产量(万升)(y) 149 156 161 164 171 179 184 194 3.某啤酒厂1998年至2005年各年啤酒产量如下: 年份 1998 1999 2000 2001 2002 2003 2004 2005 要求:(1)用最小二乘法拟合线性趋势模型; (2)预测该厂2006年啤酒产量。

??a?bt 设趋势模型为:y 根据最小二乘法原理知: b?n?ty??t?y8?6369?36?1358??6.143

n?t2?(?t)28?204?362 a?y?bt?135836 ?6.143??142.10788??142.107?6.143t 得y(2)将t?9代入上述回归方程,有

??142.107?6.143ty?142.107?6.143?9 ?197.394(万升)三、抽样推断

1.平均数及比例的区间估计 2.平均数及比例的假设检验 3.最小样本容量的确定

4.某厂商准备在北京投资一家快餐店,为进行可行性研究,现随机调查了在7家快餐店就餐的49位顾客,其消费额如下:

15 38 26 24 30 42 18 30 25 26 16 34 44 20 35 24 26 34 48 18 28 46 19 30 36 42 32 45 36 21 47 26 28 31 42 45 36 24 28 27 32 36 47 53 30 24 32 46 26 要求:

(1)计算该样本的算术平均数;

x1568?x???32

n49

(2)若顾客在快餐店的消费额服从正态分布,其样本标准差为9.56,试估计置信度为90%的置信区间;

大样本,总体标准差未知,用样本标准差替代,置信度90%时,Z??1.645

2因总体单位未知,可按重复抽样计算抽样边际误差Z?2sn

Z?2sn?1.645?9.5649?2.25

置信上限x?Z?2snsn?32?2.25?34.25元

置信下限x?Z?2?32?2.25?29.75元

即顾客在快餐店的消费额的置信度为90%的置信区间为(29.75,34.25)

5.某地区有20000亩小麦,采用不重复抽样调查其中的2000亩,测得平均亩产量为500公斤,标准差为125公斤,以可靠程度95.45%,计算20000亩的平均亩产量。 解:平均亩产的抽样标准误差

s2n12522000(1?)??(1?)?2.65(公斤) nN200020000平均亩产在概率95.45%(即Z??2)的条件下,其抽样边际误差:

2

?x?Z?/2sn1?n?2?2.65?5.3 N依区间估计20000亩小麦的平均亩产:

x?x??x?500?5.3公斤

494.7公斤≤x≤505.3公斤

6.为了了解某地区目前居民收入情况,现随机抽取25人登记其月收入,得资料如下:

收入(百元) 人数(人)

要求:

(1)若该地区居民收入服从x~N(?,100)的分布,即总体方差为100,试以95%的置信水平估计目前该地区居民月收入的可能范围。

解:

计算样本均值: x?10以下 10~20 20~30 30~40 40以上 2 3 15 3 2 ?xf?f?625?25 25资料可知样本平均数抽样标准误差为:

?2n?100?2 252因居民收入服从正太分布,置信水平1???0.95,可知Z??1.96

即有?x?Z?2?2n?1.96?2?3.92

因样本平均数x?25,可得:

??x???25?3.92?21.08(百元)总体平均数置信下限? 1x??x???25?3.92?28.92(百元) 总体平均数置信上限?2x即依据该样本求得的总体平均数置信区间为(21.08,28.92)

(2)若该地区居民收入服从x~N(?,100)的分布,若要求置信水平为95.45%、估计总体平均数?的极限误差不超过2百元,在简单重置抽样的情况下,最少需抽取多少人进行调查?

2Z?/2?222?100??100(人) 解:在简单重置抽样条件下:n?22?x27.某企业生产一批灯泡10000只,随机抽取400只作耐用时间试验和合格检验,测算结果,

平均使用时间为2000小时,标准差为12小时,其中有80只不合格。 要求:(1)试计算使用寿命和合格率的抽样标准误差。

(2))计算合格率的95.45%的置信区间 解:(1)抽样标准误差

耐用时间的抽样标准误差

s2n122400(1?)?(1?)?0.59(小时)

40010000nN合格率的抽样标准误差: 抽样合格率=320/400=80%

P(1?P)n(1?)?nN0.8(1?0.8)400(1?)=0.0196或1.96%

40010000(2)合格率的置信区间为:

合格率的抽样边际误差

?P?Z?/2p(1?p)n(1?=2×1.96%=3.92% nN)0.8?0.0392

即(76.08%,83.92)

8.一种元件,要求其使用寿命不低于1 000小时。现从中随机抽取25件,测得其平均寿命为950小时。已知该种元件寿命服从标准差为100小时的正太分布,试在显著性水平为0.01的要求下确定这批元件是否合格? 解:建立假设:H0:??1000H1:??1000

本检验为右侧检验,因显著性水平??0.01,查正态分布表得Z??Z0.01?2.34 计算统计量z?x??0?/n?950?1000100/25??2.5

因z?z?,故拒绝原假设H0

9.已知某零件的尺寸服从正太分布,现从某天生产的零件中随机抽取10个,测得其长度(毫米)如下:

14.8 15.1 14.6 15.2 14.9 15.0 14.8 15.1 15.3 14.7

要求:(1)确定该种零件平均长度的置信区间,置信水平1???95%

(2)若要求该种零件的标准长度应为15毫米,试在显著性水平??0.05条件下,检验该种零件是否符合标准要求? 解:(1)由样本资料得:样本平均数:

x149.5?x???14.95

n10 样本标准差:

s?2(x?x)?n?1?0.2273

由于总体方差未知,用样本方差替代,小样本,样本均值服从t分布,计算得抽样标准

误差为:

sn?0.227310?0.072

因置信水平1???95%,查表可得t?/2(n?1)?t0.025(9)?2.262 抽样边际误差?x?t?/2(n?1)sn?2.262?0.072?0.163

??x???14.95?0.163?14.79 置信下限?1x??x???14.95?0.163?15.11 置信上限?2x即在95%的置信水平下,该零件平均长度的置信区间为(14.79,15.11) (2)由题意知此检验为双侧检验,故建立假设: H0:??15H1:??15

因总体方差未知,用样本方差替代,所以

x??s/n服从t分布,在显著性水平为0.05

时,t检验临界值t?/2(n?1)?t0.025(9)?2.262

计算样本统计量t?x??0s/n?14.95?150.2273/10??0.6956

t?t?/2(n?1),故不能拒绝原假设。

22?232。10.甲、乙两厂生产同种零件,已知零件长度均服从正态分布,且?甲?202,?乙从甲厂生产的零件中随机抽取81件,测得x甲?400厘米,从乙厂生产的零件中随机抽取100件,测得x乙?420厘米。根据以上调查结果,能否认为甲、乙两厂生产的零件平均长度相等。

建立假设:H0:?1??2?0 H1:?1??2?0 计算检验统计量值:

z?x1?x2?12n1?2?2?n2400?420?5.96

222023?81100与显著性水平0.05对应的临界值为?1.96,由于z?5.96?1.96,所以拒绝原假设。即不能否认两厂生产的材料平均长度相同。

11.用两种方法生产组装产品,为比较两种方法组装效率是否有显著差异,现随机独立抽取两组个人各12人,进行试验,得数据如下:

原方法 28 30 29 37 32 28 新方法 27 22 31 33 20 30 原方法 36 37 38 34 28 30 新方法 31 26 32 31 33 26 假设新旧方法方差相等,在5%的显著性水平下能否认为新旧方法组装产品的劳动生产率相等。

建立假设如下:

H0:?1??2?0

H1:?1??2?0

利用EXCEL统计功能计算如下: t-检验: 双样本等方差假设 变量 1 32.25 15.47727273 12 16.96590909 0 22 2.230069126 0.018132009 1.717144335 0.036264019 2.073873058 变量 2 28.5 18.45454545 12 平均 方差 观测值 合并方差 假设平均差 df t Stat P(T<=t) 单尾 t 单尾临界 P(T<=t) 双尾 t 双尾临界 由上表数据可以看出,双侧检验P值为0.036,小于指定显著性水平0.05,故拒绝原假设,即样本数据表明新旧方法组装产品的劳动生产率不同。 四、相关与回归

1.相关系数及说明 2.回归方程及预测

212.已知n=5,Σx=15,Σy=158,Σx=55,Σxy=506,Σy=5100

2要求:(1)计算相关系数;

(2)建立y依x的直线回归方程。 解:(1)相关系数计算:

r??n?xy?(?x)(?y)n?x2?(?x)2n?y2?(?y)25?506?15?1585?55?(15)25?5100?(158)2?0.9774

(2)回归方程计算:

b=

n?xy??x?yn?x2?(?x)2=

5?506?15?158=3.2 25?55?(15)15815 a=y?bx=5-3.2×=22

5 直线回归方程为:y=22+3.2x

13.为了研究企业生产费用与产品产量的关系,现从某一行业中随机抽取12家企业,所得资料如下: xy 企业编号 产量(千费用(千22? yy x 件) 元) 1 2 3 4 5 6 7 8 9 10 11 12 合计 40 42 50 55 65 78 84 100 116 125 130 140 1025 130 150 155 140 150 154 165 170 167 180 175 185 1921 1600 1764 2500 3025 4225 6084 7056 10000 13456 15625 16900 19600 101835 16900 22500 24025 19600 22500 23716 27225 28900 27889 32400 30625 34225 310505 5200 6300 7750 7700 9750 12012 13860 17000 19372 22500 22750 25900 170094 140.978 141.8194 145.185 147.2885 151.4955 156.9646 159.4888 166.22 172.9512 176.7375 178.841 183.048 要求:

(1)计算产品产量与生产费用之间的简单相关系数,并说明其含义; 设产品产量为x,生产费用为y,则

r?

n?xy??x?yn?x2?(?x)2?n?y2?(?y)212?170094?1025?192122?12?101835?1025?12?310505?1921?0.9202

说明产品产量与生产费用之间存在高度的正线性相关。

(2)用最小平方法拟合生产费用对产品产量的回归直线,并解释回归系数的经济含义 由最小平方法可以设立下列标准方程:

??y?na?n?x ?2xy?ax?bx????将上述数据代入方程得解如下:

b?12?170094?1025?1921?0.420712?101835?10252

19211025a??0.4207??124.151212可得生产费用对产品产量的回归方程为:

??124.15?0.4207x y回归系数b?0.4207表示,产量每增加1千件,生产费用平均增长0.4207千元。 (3)根据所拟合的回归方程,预测当产量为150千件时的生产费用?

??124.15?0.4207xy?124.15?0.4207?150 ?187.26(千元) EXCEL运行结果如下: