教 案
2007 — 2008 学年 秋 季学期
所在单位 公共卫生与热带医学学院
系、教研室 生物统计学系
课程名称 卫生统计学
授课对象 2004级预防医学本科
授课教师 阎玉霞
职 称 讲师
教材名称卫生统计学
南方医科大学教案首页
| 授课题目 | 简单回归分析 | 授课形式 | 讲授 |
| 授课时间 | 2007-12-11 | 授课学时 | 3 |
| 教学目的 与 要 求 | 了解回归的思想来源 掌握线性回归方程的计算,回归系数的假设检验的思想和步骤 了解回归方程的应用 | ||
| 基本内容 | 1. 回归思想的来源 2. 散点图、线性回归方程 3. 回归系数的假设检验 4. 回归系数与预测值的区间估计 5. 回归方程的应用及注意事项 | ||
| 重 点 难 点 | 其中,1、4、5为了解内容,2、3为重点内容,对最小二乘法和可信区间与容许区间的区别的理解是难点(了解)。 | ||
| 主要教学 媒 体 | 多媒体投影仪 | ||
| 主 要 外 语 词 汇 | regression coefficient, linear regression analysis, linear, independent , normal, equal variance | ||
| 有关本内容的新进展 | |||
| 主要参考资料或相关网站 | http://www.smmu.edu。cn/zykj/~statistics/index/index.htm 1. 徐勇勇主编. 医学统计学(第二版). 北京:高等教育出版社,2004 2. 杨树勤主编. 卫生统计学(第二版). 北京:人民卫生出版社,1991 3. 方积乾主编. 医学统计学与电脑实验(第二版). 上海:上海科学技术出版社,2001 4. 孙振球主编. 医学统计学(供研究生用). 北京:人民卫生出版社,2004 | ||
| 系、教研室 审查意见 | |||
| 课后体会 |
南方医科大学教案
| 教学内容 | 时间分配和 媒体选择 |
| 第十二章 简单回归分析 第一节 简单线性回归 导入 一、线性回归的概念及其统计描述 1 线性回归的概念 2直线回归方程的求法 3最小二乘法 二、回归模型的前提假设 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance) 三、回归系数的估计 例题 解题步骤 1.由原始数据及散点图观察两变量间是否有直线趋势 2.计算 3.计算有关指标的值 4.计算回归系数和截距 5.列出回归方程 四、总体回归系数β的统计推断 应变量 方差分析法 举例 T检验法 举例 第二节 线性回归的应用 一、总体回归线的95%置信带 二、个体Y预测值的区间估计 第三节 残差分析 回归方程的应用 回归分析的注意事项 小结 | 幻灯片5分钟 幻灯片10分钟 幻灯片15分钟 幻灯片5分钟 幻灯片3分钟 幻灯片2分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5分钟 幻灯片5分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5分钟 幻灯片10分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 幻灯片10分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 |
教学进程
| 教学内容 | 时间分配 媒体选择 |
| 第十二章 www.lindalemus.com/zhicheng/简单回归分析 第一节 简单线性回归 导入 两变量之间的关系
有关系 非确定性关系 确定性关系:已知一个变量能精确求出另一个变量的值,两变量是完全对应的。例:S=VT,C=2pr。 非确定性关系:两变量存在某种关系,但非完全一一对应关系,而是有某种趋势。例:正常人收缩压随年龄增高而增高,但不能讲某一年龄的人血压一定是多少。 两个或更多变量之间的关系,如: 广告费支出~商品销售额 受教育程度~收入水平 药物剂量~动物死亡率 年龄、体重~血压 回归与相关的思想来源 Francis Galton (1822-1911)和Karl Pearson (1890-1920) “Regression toward mediocrity in heredity stature” Journal of the Anthropological Institute, 1886, 15: 246 – 263 父亲身高(X)~儿子身高(Y)
| 幻灯片5分钟 |
教学过程
| 教学内容 | 时间分配 媒体选择 |
| 依存关系:应变量(dependent variable)Y随自变量(independent variable )X变化而变化 ——回归分析 姐妹身高(X)~兄弟身高(Y) 互依关系:变量X 与Y 之间的彼此关系 ——相关分析 一、线性回归的概念及其统计描述(linear regression analysis) 直线回归的概念 目的:研究应变量Y对自变量X的数量依存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
图12-1 15名健康人凝血酶浓度(X)与凝血时间(Y)散点图 由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。 直线回归方程的求法 直线回归方程的一般表达式为
为了求解 二、回归模型的前提假设 线性回归模型的前提条件是: 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance) 回归参数的估计 Ø残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 Ø求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。 原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小 三、回归系数的估计 | 幻灯片10分钟 幻灯片15分钟 幻灯片5分钟 幻灯片3分钟 幻灯片2分钟 幻灯片2分钟 幻灯片3分钟 |
| 教学内容 | 时间分配 媒体选择 | ||||||||||||||
| 。
可导出
本例:n=15 ΣX=14.7 ΣX2=14.81 ΣY=224 ΣXY=216.7 ΣY2=3368
几个公式 均数: |
| 教学内容 | 时间分配 媒体选择 |
| 离均差平方和:
离均差乘积和:
除了图中所示两变量呈直线关系外,一般还假定每个 解题步骤 1.由原始数据及散点图观察两变量间是否有直线趋势 2.计算 3.计算有关指标的值 4.计算回归系数和截距 5.列出回归方程 绘制回归直线
| 幻灯片5分钟 幻灯片5分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5 分钟 |
| 教学内容 | 时间分配 媒体选择 |
|
四、总体回归系数β的统计推断
无论 前面所求得的回归方程是否成立,即 | |
| 教学内容 | 时间分配 媒体选择 |
| 如图12-2,p点的纵坐标被回归直线与均数 第一段( 第二段( 第三段 上述三段的代数和为:
上式用符号表示为:
上述三个平方和,各有其相应的自由度
方差分析:其步骤与一般假设检验相同。统计量F的计算公式为: | 幻灯片10分钟 幻灯片5分钟 |
| 教学内容 | 时间分配 媒体选择 |
|
回归系数的t检验
例12-4 对表12-1数据回归系数进行t检验。 解:1. 提出检验假设,确定显著性水平
2. 计算统计量
3. 确定P值,下结论 查t界值表,P<0.001,按a=0.05的检验水准拒绝H0 ,接受H1。 注意: 第二节 线性回归的应用 1.总体均数 给定 | 幻灯片5分钟 幻灯片5分钟 |
| 教学内容 | 时间分配 媒体选择 | |||
|
o 以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线
o o 图12-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-α)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。 o (1-α)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内, 置信度为(1-α) 2.个体
o 以第一观测点数据(X1=1.1)点为例,该点预测值的标准差为 o o 第一数据点的预测区间为: 14.0957±(2.16)(0.0.5249)=12.9618~15.2297 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个 | 幻灯片5分钟 | |||
| 教学内容 | 时间分配 媒体选择 | |||
| o 带子,称为Y值的95%预测带,它比总体回归线95%置信带更宽。 图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。 决定系数(coefficient of determination)
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 第三节 残差分析 o残差(residual)是指观测值Yi与回归模型拟合值之差 o 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。 o例如,第一数据点的残差e1=14-14.0957=-0.0957,如此类推,计算出各数据点的残差值示于表12-2的第10列中。将第10列的残差减去其均数,除以其标准差,便得标准化残差。 若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图12-7所示。类似地,也可以自变量取值Xi为横坐标, 以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。 o图12-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b ) 和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于±2倍标准差以外,可能是异常点。 例12-5 例12-2样本回归系数b=0.0648,估计总体回归系数b的95%可信区间。 解:Sb=0.00688,df=12-2=10 查t界值表,得t0.05/2,10=2.228,故b的95%可信区间是 (0.0648-2.228×0.00688, 0.0648+2.228×0.00688) = (0.0495,0.0801)
3.
4. 个体Y值的容许区间 容许区间:总体中X为某一定值x0时,个体y值的波动范围。即当自变量为x0时,总体中有1-a的个体值y0在此范围之内。
例12-7 对例12-2,计算www.lindalemus.com/Article/x0=250时,个体Y值95%的容许区间。 | 幻灯片10分钟 |
| 教学内容 | 时间分配 媒体选择 |
| 解: 故x0=250时,个体Y值的容许区间为: (18.2-2.228×1.475, 18.2+2.228×1.475)=(14.95,21.44) 即当大鼠进食量为250g时,有95%的大鼠体重增加量在14.95~21.44范围内。 回归方程的应用 1. 描述两个变量在量上的依存关系; 2. 估计和预测(forecast): 给定X值,估计Y的波动范围,即Y的(1-a)容许区间。 3. 控制(control):给定Y值范围,求X值范围。 回归分析的注意事项 G 首先绘制散点图 G Y要服从正态分布 G 两变量之间关系要有实际意义 G 必须对回归系数作假设检验 小结 | 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 |

