公司法
当前位置: 首页 法律大全

线性回归的基本原理(赤裸裸的统计学-)

时间:2023-05-30 作者: 小编 阅读量: 1 栏目名: 法律大全

5%就使得该问题是否具有统计学意义。*R2为1时,表示回归方程可以完美预测样本中每个数据的目标值。中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。通常我们使用的显著性水平的检验的阈值是5%。在有多个自变量的回归,称为多元回归分析或多变量复回归分析。

线性回归的基本原理?#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!

线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = abxe,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

    推荐阅读
  • 怎样烧红烧肉(家常红烧肉的做法)

    怎样烧红烧肉原料:精品五花肉、炖肉料包、葱、冰糖、茶叶。五花肉切条放入凉水中撇去血沫。焯水定型;捞出后晾凉切一样大的方块。锅中放少许油倒入白砂糖炒糖色。糖色的气泡由大变小迅速关火,倒入开水。加少许绍酒,加开水烧,熟得快,加入茶叶水,可以去腥味。改回炒锅大火,放冰糖,使汁粘稠即可出锅,香葱段点缀。

  • 2022杭州径山茶圣节时间、地点、活动一览

    最终集齐所有铜币的游客可至“大宋钱庄”兑换神秘礼物。今来茶韵生活01、陆羽说论坛为进一步挖掘径山茶宴有关历史文化,本届茶圣节特邀请茶学专家交流讨论如何更好保护和传承国家非物质文化遗产。为打造文化传播年,第二十一届中国茶圣节以春迎、夏凉、秋韵、冬福四大主题贯穿全年。

  • 《重生之门》给罗队发短信的人身份

    但是通过前文,不难推测应该是庄文杰发给罗队的短信,只是没有暴露自己的身份。罗坚来到青檀假日酒店排查,没有发现任何异常,庄文杰和许正清乔装改扮随后赶来,他们一出现就被人盯上,庄文杰和许正清来到地下停车场,庄文杰巧妙引开那些人,混进游客中进入酒店。这件事情把十二年前的洛神案串联起来了。

  • 爱情名著哪个好看(随侃名著佳作第6期)

    言下之意,他主动向周晓白提出分手。钟跃民成为一个军人,上了战场,并且是在战斗中受伤,被送到战地医疗帐篷内救治。而周晓白和钟跃民在时隔十多年后的相遇一刻,也是被编剧以及导演,安排得相当的特别,并不是那种悲情欲绝又或者是感动无比的相遇时刻。

  • 板栗可以保存多久 板栗怎么能保存时间长

    如果是晒干的板栗可以存放3-4个月,生板栗在常温下合理贮存可以存放1-2个月,煮熟的栗子大概可以放一周,熟板栗放冰箱冷冻能保存30天左右,熟板栗放冰箱冷藏保存可以存放5天。

  • 贾宝玉与红楼梦的关系(贾宝玉的春梦到底在暗示什么)

    贾宝玉与红楼梦的关系?要知道,贾琏这个人极其好色,而且好的就是熟女,那么从这个曲折的描述中,我们可以推断出,秦可卿应该是那种熟女中的极品。这个问题在书中得不到直接的答案,因为在后面的文章中,秦可卿一共只出现三个镜头:介绍弟弟秦钟与贾宝玉相见,秦可卿病后王熙凤带贾宝玉去探病,秦可卿临死前在梦里向王熙凤交代后事。

  • 简单又好看的剪纸适合儿童(孩子能学会的幼儿简单剪纸教程)

    接下来我们就一起去研究一下吧!简单又好看的剪纸适合儿童幼儿园的孩子经常要做各种各样的手工,通过做手工,提高孩子的审美能力,锻炼孩子的动手能力,培养孩子的专注力和耐心,让孩子更聪明。用蓝天白云绿色的草地,太阳、小兔子和小蘑菇,可以贴出一幅画,也可以用这个画面编出一个小故事,带孩子度过愉快的亲子时光。欢迎关注,学习更多幼儿小手工。

  • 摩尔庄园钓鲤鱼的最佳方法(摩尔庄园钓鲤鱼的有什么最佳方法)

    以下内容希望对你有帮助!摩尔庄园钓鲤鱼的最佳方法工具/原料:华为手机、安卓系统、摩尔庄园游戏。进入游戏后操纵游戏角色进行移动了。去商店购买钓鱼的诱饵。来到池塘边进行的钓鱼。等待的水面出现波动即可钓到鲤鱼了。

  • 国外的懒人产品(歪国产品咖在用哪些可爱的小工具)

    quotes=trueUsabilityHub我通常使用UsabilityHub来帮助确定设计方案。

  • 一年四季水果时间表(一年四季的时令水果是什么)

    3月(春季):枇杷、红香蕉、樱桃、杨桃、番荔枝、青枣、甘果蔗、草莓、番石榴、牛奶蕉、柑桔、观赏南瓜、果桑、鹤首瓜。12月(冬季):樱桃、番茄、红香蕉、鸡蛋果、木瓜、草莓、百香果、杨桃、无花果、番石榴、牛奶蕉、鹤首瓜、观赏南瓜、果蔗、台湾青枣、黑提子、人心果、柠檬、菠萝、油梨、柑橘、橙子。