公司法
当前位置: 首页 法律大全

线性回归的基本原理(赤裸裸的统计学-)

时间:2023-05-30 作者: 小编 阅读量: 1 栏目名: 法律大全

5%就使得该问题是否具有统计学意义。*R2为1时,表示回归方程可以完美预测样本中每个数据的目标值。中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。通常我们使用的显著性水平的检验的阈值是5%。在有多个自变量的回归,称为多元回归分析或多变量复回归分析。

线性回归的基本原理?#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!

线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = abxe,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

    推荐阅读
  • 消水肿减少脂肪的几款茶饮(这几款可以尝试)

    消水肿减少脂肪的几款茶饮黑茶是由黑曲菌发酵制成,在发酵过程中产生一种普诺尔成分,从而起到了防止脂肪堆积的作用,黑茶对抑制腹部脂肪的增加有明显的效果。其好处在于不必节食,荷叶茶饮用一段时间后,对食物的爱好就会自然发生变化,变得不爱吃油腻的食物了。饭前、饭后喝一杯乌龙茶,可促进脂肪的分解,使其不被身体吸收就直接排出体外,防止因脂肪摄取过多而引发的肥胖。

  • 哪里有大神带飞(攻略大神带你飞)

    然而,毒气的杀伤力也包括己方队友以及人质,所以毒气的投掷准头也要求较高。该武器自带握把,枪托,实际稳定性极高。整体而言,S.A.S特种部队在《彩虹六号:围攻》中,虽然是最初级的探员,可他们在当下的上场几率依然非常高。

  • 焖鱼怎样焖好吃(焖鱼最喜欢这做法)

    焖鱼最喜欢这做法我们家人都特别爱吃鱼,基本上每隔两天就会买一些鱼回来,做给家人吃同样是吃肉,多吃鱼肉真的比猪肉更要营养健康鱼肉的肉质很鲜嫩,味道鲜甜,属于高蛋白低脂肪的健康肉菜食材之一​鱼肉不仅好吃,营养价值也是很丰。

  • 北京人故事梗概(北京人故事内容)

    《北京人》的故事发生在三十年代初的北平古老的曾家此时住着三代人,第一代人是已经死去夫人的垂死之人曾皓,第二代人曾皓的儿子曾文清,他的妻子曾思懿,一直在照顾曾老太爷的年近30岁的愫方,寄居在曾家的曾文清的妹妹曾文彩和她的丈夫江泰,第三代人曾文清年仅17岁的儿子曾霆和他18岁的妻子曾瑞贞;,今天小编就来聊一聊关于北京人故事梗概?北京人故事梗概《北京人》的故事发生在三十年代初的北平。

  • 鬼畜最搞笑的一次(搞笑Gif10鬼畜综艺哪家强)

    男儿有泪不轻弹,只是未到伤心处今日福利:莫瑞兹好萌啊~

  • 茄子炖花蚬子怎么做好吃(茄条五花肉炖蚬子)

    食材与明细茄条五花肉炖蚬子的做法步骤,接下来我们就来聊聊关于茄子炖花蚬子怎么做好吃?茄子炖花蚬子怎么做好吃食材与明细茄条五花肉炖蚬子的做法步骤7.炒制茄条微微变软放入一品鲜酱油、蚝油翻炒均匀添加清水开始炖制温馨小提示随着社会营养意识的普及,人们吃海鲜不再吃“鲜”,而是吃“营养”。适用于治疗肾阳虚所致的阳痿、腰痛、小便频数及补五脏之气不足。可用于治疗全身水肿,小便不利等。

  • 吃米饭会胖吗 晚上吃米饭会胖吗

    中医认为,五谷为养,养的就是人体的正气,所以,一定要吃,否则会导致肺脾肾气虚,导致免疫力不足。所以碳水化物是人类生存必不可少的重要物质之一。身体是一个很神奇的“工厂”,当体内碳水化合物不足时,机体不得不动用蛋白质来满足机体的活动所需的能量,这将影响机体用蛋白质来进行组织更新。所以碳水化物还有节省蛋白质的功能。

  • 马雅舒演过的电视剧有哪些(马雅舒演过的电视剧有哪些电影)

    秋惜到了采英家,羡慕其富贵,于是将两个襁褓中的孩子对换。青年演员程莉莎在剧中饰演性格刚烈、好打不平的陆文月,与刘恺威饰演的天雄、杜淳饰演的钧山青梅竹马。不一样的角色身份可以说是让马雅舒又挑战了一把,为她的演绎道路上又树立了一座里程碑。

  • 富士康员工自杀率(富士康又出现员工跳楼)

    3月4日,富士康科技集团证实,一名男员工在2日郑州富士康宿舍坠楼去世,已派员全力协助家属处理后事,并配合警方针对事件进行调查。富士康热线人员称让逝者家人给他们来电,不是直系亲属不透露相关情况。而富士康相关管理层对外界表示不清楚。据悉,一年前赵某某和妻子两人离异,子女随前妻生活。未被富士康开除过、未进入富士康黑名单。

  • 王者荣耀连带效果是什么(王者荣耀拖尾特效怎么领取?)

    我们一起去了解并探讨一下这个问题吧!王者荣耀连带效果是什么王者荣耀连带效果是看起来炫酷,会非常影响游戏的体验,是拖在英雄身后的特效,就像是在放彩虹屁一样。开始我们的游戏,进入游戏界面。然后点击右下角的背包。最后大家点击确认即可完成使用拖尾效果。