南京车险业务联盟

统计学复习资料

六月轩宇 2020-02-13 11:52:51

统计学期末复习

第一章

统计数据的类型

 

1分类数据(非数值数据,只能用文字来描述)家电企业、男性、女性

顺序数据(非数字值数据,类别是有序的)一等品 二等品三等品

数值型数据(数字尺度测量的观察值

 

2、观测数据(通过调查或观测收集的数据,没有人为控制情况得到的

实验数据(实验中控制实验对象而得到数据)光合作用

 

参数:用来描述总体特征的概括性数字度量,它是研究者想要了解总体的某种特征值

     参数通常有:总体平均数 总体标准差 总体比例

统计量:是用来描述样本特征的概括的·度量。它是根据样本数据计算出来的一个量,它是一个样本函数。

      统计量:样本平均数去估计平均数 用样本标准差 s去估计总体标准差 用样本比例 去估计总体比例

 

第二章

调查数据的抽样方法(简答题)

概率抽样和非概率抽样

概率抽查也称随机抽查,是遵循随机原则进行的抽样,总体每一个单位都有一定的机会被选中。它的抽样方式一般可以有简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样。

非概率抽样是相对于概率抽样而言的,抽取样本的时候不是依据随机原则,而是根据研究目的的对数据的要求。它抽取的类型一般可以有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。

 

第三章

数据预处理(简答题)

数据审核

原始数据:完整性和准确性

二手数据:适用性和时效性

数据筛选

自动筛选和高级筛选

数据排序

按行排序和按列排序

数据透视表

 

 


 

第四章

数据的概括性度量

(意义和计算)众数、中位数、平均值

众数:是一组数据中出现次数最多的变量值,用M0表示。主要用于测量分类数据的集中趋势。不受极端值影

 

中位数:是一组数据排序后置处于中间位置上的变量值,用Me表示。不受极值的影响

 

平均值:平均值也称均值,它是一组数据相加后除以数据的个数得到的结果。易受极端值影响


 

 

 

 

偏态:它是对数据分布对称性的测度,测度的统计量是偏态系数

      

 

 

 







峰态:它是对数据分布平峰或尖峰的测度,测度峰态的统计量是峰态系数


                                                       

第六章

中心极限定理(简答题):设从均值为、方差方(有限)任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值、方差的正态分布。

样本均值的抽样分布的计算:(计算题)

 

 

 

 

 

 

 

 

样本比例的抽样分布的计算:

 

 

 

 

 

 

 

 

 

 

第七章

参数估计量的评价标准(简答题)

无偏性是指估计量抽样抽样分布的数学期望等于被估计总体参数

有偏性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。

一致性是指随着样本量的增大,估计量的值越来越接近被估计总体的参数

 

总体均值的区间估计(意义和计算)

在对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量样本是大样本(通常要求N大于或等于30),还是小样本(小于30

1、服从正态分布,且方差(s)已知

如果不是正态分布,可由正态分布来近似 (n>= 30)

使用正态分布统计量 z


总体均值 m1-a 置信水平下的置信区间为


2、从正态分布,但方差(s) 未知

小样本 (n < 30)

使用 t 分布统计量


 

 

总体均值 m1-a置信水平下的置信区间为


总体比例区间估计

总体服从二项分布

可以由正态分布来近似

使用正态分布统计量 z


总体比例 p1-a置信水平下的置信区间为


 

第八章

 

显著性水平、两类错误(简答题)

显著性水平:为显著性水平,通常情况下α取0.050.01.他的含义是当原假设正确时却被拒绝的概率或风险,其实这就是说在假设检验中犯真错误的概率。

两类错误:第Ⅰ类错误是原假设H0却被我们拒绝了,犯这种错误的概率用α表示,也称α错误弃真错误

第Ⅱ错误是原假设没有被我们拒绝,犯这种错误的概率用β表示,所以也称β错误取伪错误






P值:根据检验统计量落入的区域作出是否拒绝原假设的决策(p>α不拒绝,p<α拒绝)







          


第十章

单因素方差分析的步骤、判定方式和计算方式

单因素方差分析表

方差来源

平方和

自由度

均方

F

组间因素A

SSA

r-1

MSA

F=MSA/MSE

组内误差E

SSE

n-r

MSE


总和T

SST

n-1





第一章

1、指出下面变量的类型:

1)年龄。

2)性别。

3)汽车产量。

4)员工对企业某项改革措施的态度(赞成、中立、反对)。

5)购买商品时的支付方式(现金、信用卡、支票)。

解答:(1)数值型变量。(2)分类变量。(3)数值型变量。(4)顺序变量。(5)分类变量。

 

2、一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。

1)这一研究的总体是什么?

2)月收入是分类变量、顺序变量还是数值型变量?

3)消费支付方式是分类变量、顺序变量还是数值型变量?

4)这一研究涉及截面数据还是时间序列数据?

解答:(1)总体是“所有IT从业者。”

2)数值型变量。

3)分类变量。

4)截面数据。

第三章

1、调查几个重要的汽车生产基地,就可以了解我国汽车生产的基本情况和问题,这种调查属于( D

  1. 普查                                                       

  2. 抽样调查

  3. 典型调查

  4. 重点调查

 

2、下列属于品质标志的是(B

A.工人年龄

B.工人性别

C.工人体重

D.工人工资

 

3、某班学生统计学考试成绩分别为65分、72分、81分和87分,这4个数字是( D

  1. 指标

B.标志

C.变量

D.标志值

 

4、下列各项中属于全面调查的是( D

A. 重点调查        B. 典型调查

C. 抽样调查        D. 人口普查

 

5、工业企业按经济类型分组和工业企业按职工人数分组,两个统计分组是(D

A.按数量标志分组

B.按品质标志分组

C.前者按数量标志分组,后者按品质标志分组

D.前者按品质标志分组,后者按数量标志分组

 

6、等距数列中,组距的大小与组数的多少成(C

A、正比

B.等比

C.反比

D.不成比例

 

7、统计数据按照计量层次分可分为分类数据、品质数据和数值型型数据。    (    )

 

 

第四章

1.1990年发表的一篇文章讨论了男性和女性工商管理硕士(MBA)毕业生起薪的差别。文章称,从前20名商学院毕业的女性工商管理硕士(MBA)的平均起薪是54 749美元,中位数是47 543美元,标准差是10 250美元。对样本均值可解释为:

A.大多数女性工商管理硕士(MBA)的起薪是54 749美元

B.最常见到的起薪是54749美元

C.样本起薪的平均值为54749美元

D.有一半的起薪低于54 749美元

 

答案:C

 

2.美国10家公司在电视广告上的花费如下(百万美元):7263.154.754.32926.92523.92320,那么,样本数据的中位数为

A28.46                                     

B30.20

C27.95

D28.12

 

答案:C

 

3.             是测度离散趋势的测度值。

A.平均数               

B.方差

C.中位数                答案:B

D.峰度

 

4.大学生每学期花在教科书上的费用平均为280元,标准差为40元。如果已知学生在教科书上的花费是尖峰对称分布,则在教科书上的花费在160元和320元之间的学生占

A.大约95%                                       

B.大约97.35%

C.大约81.5%                                   

D.大约84%

                 

第六章

问题1:

某市为了支援西部教育事业,现从报名的18名志愿者中选取6人组成志愿小组.为了保证对每个志愿者的公平性,如何确定志愿小组的名单?

分析:问题1的总体中的个体数目较少,运用简单随机抽样法抽样。

 

问题2:某学校有在编教师160.其中老年教师16,中年教师112,青年教师32.教育部门为了了解教师的健康状况,要从中抽取一个容量为20的样本.试确定用何种方法抽取。

分析:问题2中的总体由差异明显的几部分组成,故采用分层抽样法抽样。

 

问题3:

某工厂平均每天生产某种零件大约1000,要求产品检验员每天抽取50,检查其质量状况,试问运用那种抽样方法最合理

分析:问题3中的总体容量大,样本容量也大,可用系统抽样法抽样。

 

1.从均值为200、标准差为50的总体中,抽取n=100的简单随机样本,用样本均值   估计总体均值。

1 的数学期望是多少?

200

2 的标准差是多少?

5

3 的抽样分布是什么?

正态分布

4)样本方差S2的抽样分布是什么?

x的平方(100-1)


 

 

 

 

 

 

第七章(计算题)

一家食品生产企业以生产袋装食品为主,为对产品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量(单位:g)如右表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%

 

已知X~N(m102)n=25, 1-a = 95%za/2=1.96。根据样本数据计算得:    。由于是正态总体,且方差已知。总体均值m1-a置信水平下的置信区间为


 

 

     该食品品平均重量的置信区间为101.44g~109.28g

 

 

一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如右表。试建立投保人年龄90%的置信区间。

 

已知n=36, 1-a = 90%za/2=1.645   根据样本数据计算得:    s=   s=7.77             ,总体均值 m 1-a置信水平下的置信区间为:


投保人平均年龄的置信区间为37.37岁—41.63

 

 

 

 

 

 

 

 

 

已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如右表。建立该批灯泡平均使用寿命95%的置信区间。

 

已知~N(ms2)n=16, 1-a= 95%ta/2=2.131。根据样本数据计算得:       

 总体均值 m1-a置信水平下的置信区间为

 


 

某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间

已知 n=100p65% , 1- = 95% z/2=1.96


该城市下岗职工中女性比例的置信区间为55.65%74.35%

 

 

 

1.某加油站64位顾客所组成的样本资料显示,平均加油量是13.6加仑。若总体标准差是3.0加仑,则每个人平均加油量95.45%置信区间估计值是多少?


第八章(计算题)(假设检验单侧检验)

1.某品种作物的产量原为亩产400kg,标准差31.5kg。现于某地推广试种,据抽样取得的81个数据,得平均亩产为394kg,试以0.05的显著性概率判断是否保持了该品种的产量特性。


 

 

 

 

 

(双侧检验)一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平=0.05 =0.01 ,检验该杂志读者群中女性的比例是否为80%?它们的P值各是多少?

H0p = 80%

H1p¹ 80%

a = 0.05

n = 200

决策:拒绝H0 (P = 0.013328 < a = 0.05)

结论该杂志的说法并不属实

 

第十章(单因素方差分析)

1.以下选项中不属于方差分析三个基本假定的()。

A.每个总体都应服从正态分布 

B.每个总体观测值的个数必须相同

C.观测值是独立的      

D.每个总体的方差必须相同

 

4.类型抽样影响抽样平均误差的方差主要是()。

A.组间方差  B.组内方差

C.总方差       D.允许方差

 

单因素方差分析表

方差来源

平方和

自由度

均方

F

组间因素A

SSA

r-1

MSA

F=MSA/MSE

组内误差E

SSE

n-r

MSE


总和T

SST

n-1



注:学会用公式计算各值 书本239244





Copyright © 南京车险业务联盟@2017