- 611.01 KB
- 2022-08-13 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
统计学基本概念公卫学院流行病与统计学系易伟宁讲师82801619yiweining@163.com\n什么是医学统计学研究设计资料收集资料整理统计分析应用科学全程参与数据提炼信息\n基本概念population&samplehomogeneity&variancevariabletype:numericalcategorical(binary,nominal,ordinal)...randomsamplerepresentative(typical)genderagebloodtypeheight/weight/bmiobesitydegree方法选用与类型密切联系\n基本概念errorsampingsystematicrandomnonrandommeasurementnonsystematic举例:对一组人的血压测量频率与概率probability,P的特点小概率事件(P<0.05或P<0.01)smallprobabilityevent\n...randomsamplegenderagebloodtypeheight/weight/bmiobesitydegree描述与推断描述总体描述样本(统计指标和图表)样本推断总体(估计总体参数和检验)descriptivestatisticsVSstatisticalinference\n数值变量的统计描述公卫学院流行病与统计学系易伟宁讲师82801619yiweining@163.com\n统计描述的主要内容反映分布特征:频数表(frequencytable)、直方图(histogram)。其外还有箱图、茎叶图、正态Q-Q图反映集中趋势(平均水平)的指标:均数(mean)、中位数(median)、几何均数反映离散趋势(变异程度)的指标:全距(range)、四分位间距(interquartilerange)方差和标准差(variance&standarddeviation)、变异系数\n\n75.479.581.583.084.084.885.885.288.289.576.379.281.383.084.084.186.087.088.390.177.579.181.283.084.285.086.087.088.389.878.580.282.483.184.285.086.187.188.690.277.680.082.583.184.385.086.387.288.890.577.980.382.683.584.585.286.487.387.691.079.080.882.983.584.785.286.787.589.091.579.681.082.183.584.985.386.787.589.091.279.481.082.483.784.985.386.988.089.392.079.581.382.583.784.885.786.887.989.293.5某年某地2岁男童的身高资料\n考察资料的分布类型频数表:将100个身高值等距分为约10个组,第1组包括最小值75.4,最末组包括最大值93.5,分别清点各组的身高个数(频数),可编制出身高频数表。直方图:以身高组段为横轴,各组相应频数为纵轴,所作出的统计图\n从频数表和直方图总结出资料的分布特征是:中央位置84-86cm处的身高值最多,以此为中心左右大致对称。据此认为身高资料属于对称分布或近似正态分布的资料\n反映集中离散趋势的指标标准差为非负数,值越小说明这组数的变异程度越大样本均数容易受特大或特小值的影响,要求必须是对称分布资料\n正态分布资料的特征钟型曲线均数为中心,左右对称位置参数和变异度参数④曲线下面积规律95%95%的身高值(77,92)范围内,即身高的95%正常值范围√√\n一组带瘤小鼠经治疗后的生存天数10121515161718202390+根据经验可知,生存数据往往是不对称分布(偏态分布)的,因此计算生存天数的算术平均值不合理,应改用中位生存天数描述其集中趋势。同理描述离散趋势的指标是四分位间距\n\nSPSS软件概述公卫学院流行病与统计学系易伟宁讲师82801619yiweining@163.com\nSPSS是什么?美国SPSS公司产品,后被IBM公司收购SPSS曾经是社会科学统计软件包的缩写(StatisticalPackageforSocialSciences)后来被解释为统计产品和服务解决方案(StatisticalProductandServicesolutions)主要功能:数据输入,数据管理,统计分析,绘图\nSPSS常用窗口介绍数据编辑窗口DataEditor,类似Excel表格形式,每一行代表一个个体(case)每一列代表该个体的一个属性。结果浏览窗口OutputViewer,可编辑和导出为word或html等格式。对应扩展名为SAV,SPO的文件\n数据输入举例某地100名一年级儿童的体检表学号:40025姓名:略性别:男女√出生日期:2008年1月2日体检结果身高120.0cm体重19.5kg肺活量883ml\n变量清单变量名(Name)类型(Type)中文含义(Label)宽度(Width)变量取值及备注v1数值学号F8.0v2字符性别A1m=男f=女v3日期出生日期Date10mm/dd/yyyyv4数值身高F8.1厘米v5数值体重F8.1千克v6数值肺活量F8.0毫升\n练习新建数据文件,输入体检表内容并保存(SAV)注意正确的变量命名打开SPSS自带的雇员数据文件(employeedata.sav),默认在C:\ProgramFiles\SPSS\将其另存为excel97格式的文件(XLS)用SPSS读取excel格式的雇员数据文件,注意读取文件前要关闭EXCEL软件\nData菜单定义变量属性复制数据属性定义日期插入变量√插入个案√跳至..排序√转置重构合并文件数据汇总发现重复数据正交设计分割文件选择观测√加权√\nTransform菜单计算√重编码√可视化分组√计数数据编秩自动编码\n练习1(以Employee数据为例)1.插入(或删除)变量(或观测对象)2.对单个变量(如受教育年数educ)排序3.对多个变量(如性别gender和educ)排序4.依条件选择观测,如仅保存女性且职业类别是经理的观测。(gender=‘f’&jobcat=3)注意敲入的是纯英文而非中文输入状态下的单引号\n5.用Compute命令产生新变量d,反映年收入的增幅,即d=当前salary-以前salary6.用Record命令产生新变量group,取值为1代表男性雇员,取值为2代表女性雇员7.用Record命令将男雇员年收入转换为三档年收入<3万/年属于低档,3-3.6万/年属于中档,其余属于高档\n练习21.对身高数据用visualbander命令将等距分为10组2.Analyze→DescriptiveStatistics→Frequencies→DisplayFrequencytable命令作频数表3.Graphs→histogram命令作直方图4.计算合适的集中趋势、离散趋势指标5.对雇员salary(万/年)变量重复上述分析过程6.利用身高的样本数据估计其95%正常值范围