教学质量评价中定性随机变量统计分析

摘要:结合应用实例,探讨定性随机变量之间是否独立性检验方法、列联表、对数线性模型、Logistic 模型的实施过程。
关键词:定性资料;列联表;对数线性模型;Logistic 模型
中图分类号:G4
文献标识码:A
doi:10.19311/j.cnki.16723198.2017.01.070
1 问题提出
本科生教学质量评价中除了涉及少量的定量变量(或称间隔尺度变量)外,往往更多地研究定性变量(或称名义尺度变量),这些定性变量往往只有各种状态的区别而无数量上的区别,例如学生的性别、教师职称等。
在概率统计中描述两个随机的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个定性随机变量之间的相关性是指广义的相关性,称为关联性,两个定义随机变量之间的关联程度在某种意义上就是指的「不独立性」,如何直接对定性资料进行分析并给出两个定性变量之间是否独立性检验?
先从引授实例切入:研讨优秀论文与依托科研的关系,这里用 A 表示是否获优,用 B 表示是否参加科研,假设从一批被调查的对象中得到的统计表,如表 1 所示。
3Logistic 回归
对数线性模型是将列表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic 回归模型是将概率比取对数后,再进行参数化而获得的。在很多研究中概率比是常常遇到的,当因变量是一个多级分类的变量时,列联表就需要采用两两比较的方法。
Logistic 回归要解决的问题与普通回归要解决的许多问题类似。比如在医药行业中,因变量 y 取 0,1,…,g 等 g+1 个不同的值,分别表示不同用药类型,y=0 表示正常情况,y=1,…,g 表示不同用药后的反应;药的剂量 x1,性别 x2,年龄 x3,体重 x4,血压 x5,…等等为自变量 x;显然因变量 y 与自变量 x 有关。很显然,这里因变量是定性的,自变量有定性的也有定量的,问这些自变量对一个定性变量的关系是否独立?不独立又会具有什么形式的联系?是线性的还是非线性的等等。
3.1Logit 变换
在现实生活中常常会遇到这样的问题,即要研究某一事件 A 发生的概率 p 以及 p 值的大小与某些因素的关系,但由于 p 对 x 的变化在 p=0 或 p=1 的附近是缓慢的,或说不敏感的,比如像一个可靠度 p 已经是 0.998 的可靠系统,不管如何改善条件和系统结构,它的可靠度增长只能在 0.000 以后。于是人们就希望寻找一个形式相对较简单、且在 p=0 或 p=1 附近变化幅度较大、p 的函数 θ(p)。根据导数的意义,用 dθ(p)dp 来反映 θ(p)在 p 附近的变化是很合适的,同时希望 p=0 或 p=1,dθ(p)dp 有较大的值,因此取
4 结语
定性资料统计分析的内容丰富,方法实用,在教学质量评价实际工作中,对于列联表,可根据实际需要来选择模型,既可用对数线性模型也可用 Logistic 模型。研究表明了在对调查资料中进行定性随机变量之间的关联程度探讨分析时,实施数据挖掘,发现新的知识,是提高信息反馈的质量,提供决策参考的科学性与可靠性的有效途径。
参考文献
[1](美)Mehmed kantardazic, DATA MINING concepts, Models, Methods, and Algorithms[M].北京:清华大学出版社,2003.
[2]邸凯昌.空间数据发掘与知识发现[M].武汉:武汉大学出版社,2000.
[3]高惠璇.统计计算[M].北京:北京大学出版社,1999.
[4]王中宇,夏新涛,朱坚民.测量不确定度的非统计理论[M].北京:国防工业出版社,2000.
[5]胡细宝,孙洪祥,王丽霞.概率论·数理统计·随机过程[M].北京:北京邮电大学出版社,2006.
作者 王涛