公司法
当前位置: 首页 法律大全

离散事件分析(对稀有事件数据分析的讨论)

时间:2023-07-26 作者: 小编 阅读量: 1 栏目名: 法律大全

二分变量可以诠释为有或无,发生或没有发生等。在流行病学或社会科学中,有一些事件会发生,但是出现的频次比较低,比如战争、罕见病症以及政体变迁等。核心的参数是样本的稀有事件比例和总体的稀少事件比例。为此小编采用仿真模拟的方法,构建了不同比例的稀少事件数据集,分别使用普通的logistic方法和GaryKing的rareeventlogit方法来得到解答。低于该比例的,目前尚无可信的估计方法。

在社会科学的数据分析中,有那么一类变量比较常见,即0-1的二分变量。当它是自变量时,则称为虚拟变量回归模型,当它是因变量时,此时常用的模型是logistic或probit回归(这两种模型的区别在于对方差的假定不同,二者估计的结果差异不大,但是在更为复杂的模型中可能会有不同的功能)。二分变量可以诠释为有或无,发生或没有发生等。在流行病学或社会科学中,有一些事件会发生,但是出现的频次比较低,比如战争、罕见病症以及政体变迁等。很多时候定性研究在这种重要的罕见事情上大放光彩,通过深入的资料档案分析与小案例比较方法来探究这些事件的成因,总结出具有一定普适性的理论。

在定量研究中,稀有事件的logistic分析往往存在困难,这点在数学上可以解释,即频率派方法求解待估计系数矩阵时(公式如下),如果事件发生概率过低,矩阵中就会有很多元素约等于0,那么在求矩阵的逆矩阵时就容易出问题,造成估计结果的可信度不高。现在的问题是:什么样的数据算是稀有事件数据?

加里·金(Gary King)2000年左右与其合作者发表的两篇文章讨论了对稀有事件回归模型的估计修正。当然,他们也没有指出多小的比例算是稀有事件(不过他们文章中使用的数据集比例是0.34%,的确算比较小了)。他们文章的核心观点是,通过先验调整(prior correction)或者加权(weighting)的方式来调整估计系数使得样本估计更接近总体。核心的参数是样本的稀有事件比例和总体的稀少事件比例。因为他们认为稀有事件数据在数据收集过程中会面临样本量和变量数目的权衡,因此在估计上可能会低估了稀少事件的出现频次,因此这个调整方案目的和功能也只是让估计更接近真实参数而非优化估计。

那么核心问题是,多少比例的稀有事件才需要修正呢?为此小编采用仿真模拟(simulation)的方法,构建了不同比例的稀少事件数据集,分别使用普通的logistic方法和Gary King的rare event logit方法来得到解答。数据分析使用R,基础包的glm()函数提供了logistic回归的程序,Zelig包中的relogit()函数提供了rare event logit的程序(这个包的其他函数出了问题,近期刚刚下架,但是错误报告里面没有提relogit()的问题,因此可以用之前版本的进行计算)。

小编设定了从0.001到0.01的以0.001为步长的比例值和从0.01到0.20的以0.01为步长的比例值,最终共得到29个比例值,分别看这两种估计方法在不同稀少比例下的表现。由于logistic固定了常用阈值,因此设计阵xβ和比例p之间存在某种函数关系,这种函数关系没有解析解,只能通过仿真方法求得数值解进行比较。这里小编还设定了随机数种子666(希望获得好运)使得结果可重复,并虚拟了100000个样本量的数据集,变量服从最小值为0,最大值为10的均匀分布(正态分布最终会导致估计比例收敛到0.5,没有办法达到想要的比例)。下图是仿真模拟的结果。

这幅图展示的是给定数据集的β和比例p之间的真实关系(红线)、logit回归的估计(绿线),rare event logit回归的估计(蓝线)。为了看得更清晰,截取上左图的部分结果放到右图,可以看到尽管估计上有差异,但是由于关键回归系数的标准误巨大,因此真实值也依然在估计的不确定范围(uncertainty)内。为了进一步观察,小编计算了估计值和真实值之间的差异占真实值的比例,结果如下图。

这张图我们大概可以看出来,当p比较小的时候,估计值和真实值的差异非常大。而且更为关键的是,rare event logit表现也没比正常的回归方法要好到哪里去。所以至少目前的仿真模拟结果呈现出来的结果是,如果以偏差10%为标准,至少比例要达到1%,如果稀有事件数据比例低于1%,两种方法估计上比较不出谁优谁劣。

所以目前能够初步得出的(未经系统检验的)结论是,如果稀有数据的比例达到1%,那么logit模型一般不会有非常大的估计偏差(形象地想一下,如果有3000个样本量的观测,某个二分变量只有30个不到的1,是不是很多人都有选择扔掉的冲动)。低于该比例的,目前尚无可信的估计方法。当然,小编也尝试了一下贝叶斯(Bayesian)方法,贝叶斯给出的结果同样有比较偏离的估计和较大的可信区间,由于一次贝叶斯估计的时间过长,因此小编没有把所有29个比例全部跑完。此外,贝叶斯的结果也取决于先验(prior)的设定,如果先验设定得好那拟合就非常棒,但是现实的结果是,我们并不知道待估计参数的真实值,即使将普通回归的结果作为一个弱先验给贝叶斯也没有明显的改善。不过这种仿真模拟还比较简单的,其中可能存在一些因个人水平有限而没有意识到的问题与错误,如果有愿意讨论的师友想要进一步讨论,还望不吝赐教!

撰文:刘天祥

    推荐阅读
  • 散文你的世界从此没有我(我不是你的王子)

    香秀毫不避讳自己对我的好,总是执拗地把她认为好吃的好玩的东西硬塞到我的手里。香秀的弟弟被烫伤了大面积的皮肤,主任家的钱开始源源不断地往省城医院送去。一天夜里,我的窗户被人敲响了,我披衣起来,是香秀。主任婆娘闻讯来拖香秀回家,香秀边挣扎边回头看我,眼神尽是悲哀无助。继母再狠,香秀毕竟还有亲爹,也不至于会有什么严重的后果。4得到香秀的消息是我到外地的第二个月,勉强站稳脚后便有发小来投奔我。

  • 汽车几t是什么意思(汽车几t意思介绍)

    汽车几t是什么意思T是TURBO涡轮增压的缩写,代表这部车用的是涡轮增压的发动机,如2.0T就是使用2.0升排量涡轮增压发动机的车。涡轮增压,涡轮增压器装在发动机的排气一端,将废气循环利用,可以增加发动机的动力,涡轮增压源于飞机发动机技术,后来运用到汽车上的,凡排量后加T的汽车,就装有涡轮增压器。

  • 日本富士山即将喷发影响(日本富士山开始活跃)

    #汤加火山会导致日本富士山大爆发吗#大家都知道,1月15日汤加火山发生了一次猛烈的普林尼式喷发,喷发柱高度高达25公里以上,有科学家认为达到了39公里。汤加喷发的冲击波传遍大气层,海啸波传遍太平洋,可以说影响遍及世界。汤加火山喷发云图动画在汤加火山大爆发的三天后,1月18号,日本富士山又传出了活跃的信号。事实上,两者之间的关联程度,可能还没有汤加火山和大气层气压变化的关联度大。

  • 生日是过农历还是阳历(生日是什么)

    以下内容大家不妨参考一二希望能帮到您!重视传统的人就过农历的生日,追求时尚的人就过阳历的生日。生日,顾名思义是指人出生之日,也是每年满周岁的那一天。但有些地方的民俗认为,这同时也是母亲的“受难日”。因为以前的科技不像如今日新月异,那时的母亲生孩子,有“一只脚在棺材里,一只脚在棺材外”一说。所以,他们觉得在那天,应该以孝敬母亲为主。

  • 的和得的区别(的和得的区别是什么)

    “的”前面的词语一般用来修饰、限制“的”后面的事物,说明“的”后面的事物怎么样。“的”后面跟的都是表示事物名称的词或词语,“得”前面多数是表示动作的词或词语,少数是形容词;后面跟的都是形容事物状态的词或词语,表示怎么怎么样的。

  • 海贼王路飞汉库克(汉库克吃下轰雷果实)

    而第11期虽然没有发售,但也很快的,在这段过程中同样出现了相关情报。成为了响雷果实能力者的汉库克和对雷电免疫的路飞原来如此,粉丝这个想法真的很好。我们都知道汉库克因为路飞的橡胶果实以及他的经历而喜欢这个男人。虽然路飞是尾田的亲儿子,但还是有很多粉丝希望看到路飞跟女帝汉库克在一起的。

  • 武隆旅游攻略(你想要的出游攻略在这里)

    武隆的特色亮点武隆的特色亮点印象武隆,印象武隆是大型山水的实景歌会。仙女山森林公园颇负盛名,是武隆景区的特色景点。被重庆市列为十佳旅游景点,是国家级的5A级风景区。之所以被称为仙女山,是因为山上有一尊像是在翩翩起舞的仙,其中的草场奇峰雪原林海有四绝之称。

  • 11岁小女孩被拐走(一女孩清晨穿着睡衣)

    女孩称被“父亲”家暴相隔七年来之不易的团聚,来源于一个普通的报警电话。民警翁晓军立即将该案上报。根据当事人的描述,婺城警方在了解情况后迅速立案调查,第一时间控制了犯罪嫌疑人王某。母亲邹某告诉民警,自己还有个大儿子,已经读大学。目前,办案民警积极协助母女俩返乡,办理户口登记手续。嫌疑人王某因涉嫌拐卖儿童罪被依法刑事拘留,该案在进一步侦办中。

  • 詹姆斯湖人23号集锦(詹姆斯晒照展示戴维斯23号湖人球衣)

    虎扑7月8日讯湖人前锋勒布朗-詹姆斯今日通过Instagram晒出他与队友安东尼-戴维斯的合影,展示戴维斯的23号湖人球衣。“正式成为一名湖人!#湖人秀”詹姆斯写道。根据此前的报道,詹姆斯将23号球衣号码让给了戴维斯,自己将会身穿6号球衣。詹姆斯还在InstagramStory上更新了自己打高尔夫的照片,并配文道:“我水平太垃圾了!”

  • 4-20ma压力传感器如何测量(154N-001G-R压力传感器测量方法)

    154N-001G-R使用硅传感器芯片测量压力是基于压阻效应,这是由隔膜两端的压力差引起的机械应力。因此,在拉伸单晶薄膜后,154N-015A-C传感器始终恢复到原始状态而不变形。压阻效应发生在材料块内部。顾名思义,表压传感器154N-015G-R用于测量气体或液体的液位或体积。