2015届高考理科数学一轮第十章统计、统计案例复习题(附答案)
详细内容
第3课时 变量间的相关关系、统计案例
1.了解两个变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
[对应学生用书P166]
【梳理自测】
一、变量间的相关关系
1.(教材改编)下面哪些变量是相关关系( )
A.出租车车费与行驶的里程
B.房屋面积与房屋价格
C.身高与体重
D.铁块的大小与质量
2.(教材改编)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )
A.y^=-2x+100 B.y^=2x+100
C.y^=-2x-100 D.y^=2x-100
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
4.人的身高与手的扎长存在相关关系,且满足y^=0.303x-31.364(x为身高,y为扎长,单位:cm),则当扎长为24.8 cm时,身高约为________.
答案:1.C 2.A 3.A 4.185.03 cm
◆以上题目主要考查了以下内容:
(1)变量间的相关关系
①常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
②从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(2)线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为y^=b^x+a^,
则b^=∑ni=1 (xi-x)(yi-y)∑ni=1 (xi-x)2=∑ni=1xiyi-nxy∑ni=1x2i-nx2,a^=y-b^x.
其中,b是回归方程的斜率,a是在y轴上的截距.
(4)样本相关系数
r=∑ni=1 (xi-x)(yi-y)∑ni=1 (xi-x)2∑ni=1 (yi-y)2,用它来衡量两个变量间的线性相关关系.
①当r>0时,表明两个变量正相关;
②当r<0时,表明两个变量负相关;
③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
(5)线性回归模型
①y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
②相关指数
用相关指数R2来刻画回归的效果,其计算公式是:R2=1-∑ni=1 (yi-y^)2∑ni=1 (yi-y)2,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
二、独立性检验
1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).
2.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( )
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C.有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
答案:1.有关 2.D
◆以上题目主要考查了以下内容:
(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1y2总计
x1aba+b
x2cdc+d
总计a+cb+da+b+c+d
K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d)(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
【指点迷津】
1.一个区别
函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.
2.三个特征
(1)回归方程y^=b^x+a^中的b^表示x增加一个单位时,y^的变化量约为b^.
(2)R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
(3)当K2≥3.841时,则有95%的把握说事件A与B有关;
当K2≥6.635时,则有99%的把握说事件A与B有关;
当K2≤2.706时,则认为事件A与B无关.
[对应学生用书P167]
考向一 相关关系的判断
下面是水稻产量与施化肥量的一组观测数据:
施化肥量:15 20 25 30 35 40 45
水稻产量:320 330 360 410 460 470 480
(1)将上述数据制成散点图;
(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?
【审题视点】 以水稻产量为纵轴,以施化肥量为x轴,建系描点观察点的分布情况.
【典例精讲】 (1)散点图如图:
(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.
【类题通法】 利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系,如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系,如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
1.(2014•镇江联考)如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.
解析:A、B、C、E大致在一条直线上,而D较远.
答案:D
考向二 线性回归方程
(2012•高考福建卷)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)88.28.48.68.89
销量y(件)908483807568
(1)求线性回归方程y^=b^x+a^,其中b^=-20,a^=y--b^x-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
【审题视点】 求样本中心点(x,y),利用回归直线方程过点(x,y)求a^,利用二次函数法求最值.
【典例精讲】 (1)由于x=16(8+8.2+8.4+8.6+8.8+9)=8.5,
y=16(90+84+83+80+75+68)=80,
又b^=-20,
所以a^=y--b^x-=80+20×8.5=250,
从而线性回归方程为y^=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
【类题通法】
1.求回归直线方程的步骤:
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;(2)计算出x,y, iyi的值;(3)计算回归系数 , ;(4)写出回归直线方程为y^=b^x+a^.
2.回归直线过样本点中心(x,y)是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.
2.(2014•南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.
房屋面积x/m211511080135105
销售价格y/万元24.821.618.429.222
(1)求线性回归方程;
(2)据(1)的结果估计当房屋面积为150 m2时的销售价格.
解析:(1)x=15×(115+110+80+135+105)=109,
y=15×(24.8+21.6+18.4+29.2+22)=23.2.
设所求回归直线方程为y^=b^x+a^,则
b^= = ≈0.196 2,
∴a^=y--b^x-=23.2-109×3081 570≈1.816 6.
∴所求回归直线方程为
y^=0.196 2x+1.816 6.
(2)由第(1)问可知,当x=150 m2时,销售价格的估计值为y^=0.196 2×150+1.816 6=31.246 6(万元).
考向三 独立性检验
(2014•石家庄模拟)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查.得到了如下的统计结果:
表1:男生上网时间与频数分布表
上网时间(分钟)[30,40)[40,50)[50,60)[60,70)[70,80]
人数525302515
表2:女生上网时间与频数分布表
上网时间(分钟)[30,40)[40,50)[50,60)[60,70)[70,80]
人数1020402010
(1)从这200名学生中任抽1人,求上网时间在[50,60)间的概率.
(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”?
上网时间少于60分钟上网时间不少于60分钟合计
男生
女生
合计
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
P(K2≥k0)0.1000.0500.0250.0100.005
k02.7063.8415.0246.6357.879
【审题视点】 (1)根据古典概型求概率.
(2)列2×2列联表,计算K2确定把握度.
【典例精讲】 (1)男女上网时间在[50,60)间的人数为30+40=70,
由频率知70200=720为其概率.
(2)
上网时间少于60分钟上网时间不少于60分钟合计
男生6040100
女生7030100
合计13070200
K2=200×(1 800-2 800)2100×100×130×70=20091≈2.20,
∵K2≈2.20<2.706.
∴没有90%的把握认为“大学生上网时间与性别有关”.
【类题通法】 解决独立性检验的应用问题,首先要根据题目条件列出两个变量的2×2列联表,通过计算随机变量K2的观测值k,依据临界值与犯错误的概率得出结论.注意观测值的临界值与概率间的对应关系.
3.(2014•东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
甲(50岁以下)乙(50岁以上)
120 1 5 6 6 7
32 3 6 7 9
5 342 4 5
858
61
8 7 6 475 8
5 3 28
09
(1)根据以上数据完成下列2×2列联表:
主食蔬菜主食肉类合计
50岁以下
50岁以上
合计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
解析:(1)2×2列联表如下:
主食蔬菜主食肉类合计
50岁以下4812
50岁以上16218
合计201030
(2)因为K2=30×(8-128)212×18×20×10=10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
[对应学生用书P169]
概率、统计案例问题的规范答题
(2013•高考福建卷)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60)、[60,70)、[70,80)、[80,90)、[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=n(n11n22-n12n21)2n1+n2+n+1n+2
P(χ2≥k)0.1000.0500.0100.001
k2.7063.8416.63510.828
注:此公式也可以写成K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
【审题视点】 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算χ2.
【思维流程】
由分层抽样计算两组工人的数目
由频率分布直方图计算两组不足60件的人数
列举5人抽取2人的基本事件数
由古典概型计算概率
统计生产能手与非生产能手,列2×2列联表
由公式计算K2,确定答案
【解答过程】 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.3分
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=710.6分
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:8分
生产能手非生产能手合计
25周岁以上组154560
25周岁以下组152540
合计3070100
10分
所以得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
=100×(15×25-15×45)260×40×30×70=2514≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.12分
【规范建议】 (1)分层抽样比为100500=15,故25周岁以上有300×15=60人,25岁以下有200×15=40人,然后再根据频率计算“不足60件”的人数,并设定符号.
(2)列2×2列联表,其中的数字应先由频率分布直方图算出后再列表.
1.(2013•高考湖北卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
① y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③ y与x正相关且y^=5.437x+8.493;④ y与x正相关且y^=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D.根据正负相关性的定义作出判断.
由正负相关性的定义知①④一定不正确.
2.(2013•高考福建卷)已知x与y之间的几组数据如下表:
x123456
y021334
假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.b^>b′,a^>a′ B.b^>b′,a^<a′
C.b^<b′,a^>a′ D.b^<b′,a^<a′
解析:选C.根据所给数据求出直线方程y=b′x+a′和回归直线方程的系数,并比较大小.
由(1,0),(2,2),求b′,a′.
b′=2-02-1=2,
a′=0-2×1=-2.
求b^,a^时,
i=16xiyi=0+4+3+12+15+24=58,
x=3.5,y=136,
i=16x2i=1+4+9+16+25+36=91,
∴b^=58-6×3.5×13691-6×3.52=57,
a^=136-57×3.5=136-52=-13,
∴b^<b′,a^>a′.
3.(2012•高考课标全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.12 D.1
解析:选D.样本点都在直线上,其数据的估计值与真实值是相等的,即yi=y^i,代入相关系数公式
r= ,a= -b ,其中 , 为样本平均值,线性回归方程也可写为y^=b^x+a^.
解析:(1)由题意知n=10,x-=1ni=1nxi=8010=8,
y-=1ni=1nyi=2010=2,
又lxx= iyi-n =184-10×8×2=24,
由此得b=lxylxx=2480=0.3,a=y--bx-=2-0.3×8=-0.4,故所求线性回归方程为y=0.3x-0.4.
(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).