一、描述性统计分析
频数分析
用于统计各类别数据的出现次数。例如,在研究某种内科疾病的临床表现时,可以统计不同症状出现的频数,如发热、咳嗽、呼吸困难等症状分别在多少患者中出现。通过频数分析可以直观地了解各种症状的常见程度。
举例:在一项关于肺炎患者症状的研究中,对 200 名患者进行调查,发现有 150 名患者出现发热症状,120 名患者有咳嗽症状,80 名患者有呼吸困难症状。通过频数分析可以清楚地看出发热是最常见的症状。
集中趋势分析
包括计算平均数、中位数和众数等,用于描述数据的中心位置。平均数是所有数据的总和除以数据个数;中位数是将数据从小到大排列后,位于中间位置的数值;众数是数据中出现次数最多的数值。
例如,在研究一组高血压患者的血压值时,可以计算平均血压、中位数血压和众数血压,以了解患者血压的总体水平。如果数据分布比较对称,平均数、中位数和众数会比较接近;如果数据分布有偏态,它们可能会有所不同。
举例:一组糖尿病患者的空腹血糖值分别为 5.8、6.2、6.5、7.1、7.5、8.2、8.5、9.0、9.5、10.0mmol/L。计算得到平均血糖值为 7.8mmol/L,中位数血糖值为 7.8mmol/L,众数不明显。这表明该组患者的空腹血糖值总体水平在 7.8mmol/L 左右。
离散程度分析
常用的指标有标准差、方差和极差等,用于描述数据的分散程度。标准差和方差越大,说明数据的离散程度越大;极差是数据中的最大值与最小值之差,也能反映数据的波动范围。
例如,在比较两种治疗方法对某种疾病的疗效时,可以计算两组患者治疗后指标的标准差或方差,以判断两组数据的离散程度。如果一组数据的离散程度较小,说明该组数据比较稳定,治疗效果可能更一致。
举例:两组冠心病患者分别采用不同的治疗方法,治疗后测量患者的心脏功能指标。A 组患者的指标值分别为 60、65、70、75、80,B 组患者的指标值分别为 50、60、70、80、90。计算得到 A 组的标准差为 7.07,B 组的标准差为 15.81。说明 B 组数据的离散程度较大,A 组治疗效果可能更稳定。
二、推断性统计分析
t 检验
用于比较两组样本的均值是否有显著差异。例如,比较一种新的药物治疗组和传统药物治疗组患者的治疗效果,可以通过 t 检验来判断两组患者的某项指标(如血压、血糖等)均值是否存在显著差异。
如果 t 检验的结果显示 p 值小于设定的显著性水平(通常为 0.05),则可以认为两组样本的均值有显著差异,即新药物治疗组与传统药物治疗组的治疗效果不同;如果 p 值大于显著性水平,则认为两组样本的均值没有显著差异。
举例:对两组高血压患者分别采用不同的治疗方法,治疗一段时间后测量患者的血压值。A 组患者的平均血压为 130mmHg,B 组患者的平均血压为 140mmHg。通过 t 检验计算得到 p 值为 0.03,小于 0.05 的显著性水平,说明两组患者的血压均值有显著差异,即两种治疗方法的效果不同。
方差分析(ANOVA)
用于比较三个或三个以上样本的均值是否有显著差异。例如,在研究不同剂量的某种药物对患者治疗效果的影响时,可以将患者分为不同剂量组,然后通过方差分析来判断不同剂量组之间的某项指标均值是否存在显著差异。
方差分析首先计算组间方差和组内方差,然后通过比较两者的大小来判断不同组之间的差异是否显著。如果组间方差显著大于组内方差,则说明不同组之间的均值有显著差异。
举例:将糖尿病患者分为低剂量药物治疗组、中剂量药物治疗组和高剂量药物治疗组,治疗后测量患者的血糖值。通过方差分析计算得到组间方差为 20,组内方差为 10。比较组间方差和组内方差的大小,发现组间方差显著大于组内方差,说明不同剂量组之间的血糖均值有显著差异。
卡方检验
用于检验两个分类变量之间是否存在关联。例如,研究某种内科疾病的发病与吸烟、饮酒等因素是否有关,可以通过卡方检验来判断疾病的发生与这些因素之间是否存在显著的关联。
卡方检验首先计算实际观察值与理论预期值之间的差异,然后通过卡方统计量来衡量这种差异的显著性。如果卡方检验的结果显示 p 值小于显著性水平,则可以认为两个分类变量之间存在关联。
举例:对一组肺癌患者和一组非肺癌患者进行调查,统计他们的吸烟情况。结果发现肺癌患者中吸烟人数为 80 人,不吸烟人数为 20 人;非肺癌患者中吸烟人数为 50 人,不吸烟人数为 50 人。通过卡方检验计算得到 p 值为 0.02,小于 0.05 的显著性水平,说明肺癌的发生与吸烟之间存在关联。
回归分析
用于研究一个或多个自变量与一个因变量之间的关系。例如,研究高血压患者的血压与年龄、体重、饮食习惯等因素之间的关系,可以通过回归分析建立回归方程,预测血压值随这些因素的变化情况。
回归分析可以分为线性回归和非线性回归等类型。线性回归适用于自变量与因变量之间呈线性关系的情况,通过最小二乘法估计回归系数,建立回归方程。非线性回归则适用于自变量与因变量之间呈非线性关系的情况,需要采用特定的函数形式进行拟合。
举例:对一组高血压患者进行调查,收集他们的年龄、体重、饮食习惯等信息,并测量他们的血压值。通过线性回归分析建立回归方程,发现血压值与年龄、体重呈正相关,与饮食习惯中的低盐饮食呈负相关。可以根据这个回归方程预测不同年龄、体重和饮食习惯的患者的血压值。
三、生存分析
生存曲线分析
用于研究患者的生存时间或疾病的进展时间等生存数据。例如,在研究某种癌症患者的治疗效果时,可以通过生存曲线分析比较不同治疗方法下患者的生存率随时间的变化情况。
生存曲线通常以时间为横坐标,生存率为纵坐标,通过绘制不同组患者的生存曲线,可以直观地比较各组患者的生存情况。同时,可以计算生存曲线的中位生存时间、生存率等指标,进一步评估治疗效果。
举例:对两组肺癌患者分别采用不同的治疗方法,随访一段时间后记录患者的生存时间。通过生存曲线分析绘制两组患者的生存曲线,发现采用新治疗方法的患者生存曲线高于传统治疗方法的患者,说明新治疗方法的生存率更高。
Cox 比例风险回归模型
用于分析影响患者生存时间的因素。例如,在研究心血管疾病患者的预后时,可以将患者的年龄、性别、病情严重程度等因素作为自变量,生存时间作为因变量,通过 Cox 比例风险回归模型分析这些因素对患者生存时间的影响。
Cox 比例风险回归模型假设患者的风险函数是多个因素的乘积形式,通过估计回归系数来衡量各个因素对生存时间的影响程度。如果回归系数为正,说明该因素是危险因素,会增加患者的死亡风险;如果回归系数为负,说明该因素是保护因素,会降低患者的死亡风险。
举例:对一组冠心病患者进行随访,收集他们的年龄、性别、血压、血脂等信息,并记录患者的生存时间。通过 Cox 比例风险回归模型分析发现,年龄较大、血压较高、血脂异常等因素是冠心病患者死亡的危险因素,而规律服药、适当运动等因素是保护因素。
四、其他分析方法
相关性分析
用于研究两个变量之间的线性关系程度。例如,研究高血压患者的血压与血脂之间的关系,可以通过相关性分析计算相关系数,判断两者之间是否存在显著的线性相关。
相关系数的取值范围在 -1 到 1 之间,绝对值越接近 1,说明两个变量之间的线性关系越强;如果相关系数为 0,则说明两个变量之间没有线性关系。
举例:对一组糖尿病患者进行检查,测量他们的血糖值和糖化血红蛋白值。通过相关性分析计算得到相关系数为 0.8,说明血糖值与糖化血红蛋白值之间存在较强的线性相关。
主成分分析
用于降维和数据综合。当研究中涉及多个变量时,可以通过主成分分析将多个变量转化为少数几个综合变量(主成分),这些主成分能够尽可能多地保留原始变量的信息,同时减少变量的个数,便于数据分析和解释。
主成分分析通过计算原始变量的线性组合,使得新的主成分之间互不相关,且方差依次递减。第一主成分通常解释了原始变量的最大方差,后续主成分依次解释剩余的方差。
举例:在研究某种内科疾病的危险因素时,收集了患者的年龄、性别、血压、血脂、血糖等多个变量的数据。通过主成分分析将这些变量转化为几个主成分,发现前两个主成分能够解释大部分数据的变异,从而可以用这两个主成分来代表原始变量进行进一步的分析。