首页所有驱动分类下载数据挖掘与人工智能搜索引擎与SEO技术备忘录站长随笔

基尼系数与洛伦茨曲线的计算方法

2020-03-05 常用计算公式 浏览次数:293
 
由于基尼系数是居于洛伦茨曲线的基础上计算的,所以先介绍洛伦茨曲线。

洛伦茨曲线主要用于衡量资源分配的平均系数,常常用在社会收入分配统计这方面,展示社会收入差距达到一个什么样的程度,以便及时作出相应对策,解决各种社会问题。

计算方法:横向X轴代表总人数,纵向Y轴代表总财富。

1 将调查对象按照收入从低到高进行排序,然后将这群人安装排序平均分成N组,计算每一组人的收入总数。

2 计算从第1组直到第N组的累计人口总收入占全部人口总收入的百分比,然后在坐标图上标出相应的点。

例如:现在有10个人,现在是大家的收入都是10美元,所以总收入是100美元。用A来表示人物。

A1=10;A2=10;A3=10;A4=10;A5=10;A6=10;A7=10;A8=10;A9=10;A10=10(意思是人物A1的收入是10美元,人物A2的收入是10美元,依次类推)

好了,现在将这些人按照收入从低到高进行排序,并且划分成5组,也就是说每组两个人。

分组1:[A1, A2],这组的总收入是A1的收入加上A2的收入,总共为20美元,占总收入20%。
分组2:[A3, A4] ,同上的计算方法,这组的总收入为20美元,占总收入20%。
分组3:[A5, A6] ,这组的总收入为20美元,占总收入20%。
分组4:[A7, A8] ,这组的总收入为20美元,占总收入20%。
分组5:[A9, A10] ,这组的总收入为20美元,占总收入20%。

现在我们要根据这5个分组的人数和收入数值,在坐标轴上画点5个点。

计算方式:本组数据加上前面所有分组的数据,得到本组在坐标点上的最终数据。

第一点的计算方法:分组一有两个人,他们的总收入是20美元,坐标点就是[2,20]

第二点的计算方法:分组二有两个人,他们的总收入是20美元,加上前面所有分组的总人数和总收入(就是分组1),一共有4个人,总收入是40美元。坐标点就是[4,40]

第三点的计算方法:分组三有两个人,他们的总收入是20美元,加上前面所有分组的总人数和总收入(就是分组1和2),一共有6个人,总收入是60美元。坐标点就是[6,60]

第四点的计算方法:分组四有两个人,他们的总收入是20美元,加上前面所有分组的总人数和总收入(就是分组1和2和3),一共有8个人,总收入是80美元。坐标点就是[8,80]

第五点的计算方法:分组五有两个人,他们的总收入是20美元,加上前面所有分组的总人数和总收入(就是分组1和2和3和4),一共有10个人,总收入是1000美元。坐标点就是[10,100]

将这5个坐标点展示出来,就是一条倾斜的直线,这个时候就是人人收入平等的线条。



好了,现在改一下数据,照样是10 个人,但他们的收入稍微有点差距:

A1=7;A2=8;A3=10;A4=15;A5=15;A6=16;A7=17;A8=18;A9=20;A10=22

这10个人的总收入是: 148=7+8+10+15+15+16+17+18+20+22

继续将这些人按照收入从低到高进行排序,并且划分成5组,然后继续按照上面的方法计算出坐标点:

分组1:[A1,A2],总收入7+8=15,坐标点为:[2,15]
分组2:[A3,A4],总收入10+15=25,再加上分组1的数值,坐标点为:[4,40]
分组3:[A5,A6],总收入15+16=31,再加上分组1和2的数值,坐标点为:[6,71]
分组4:[A7,A8],总收入17+18=35,再加上分组1和2和3的数值,坐标点为:[8,106]
分组5:[A9,A10],总收入20+22=42,再加上分组1和2和3和4的数值,坐标点为:[10,148]



当每个人的收入出现小差距的时候,上图的曲线不再是一条倾斜的直线,而是带有弧度的线条,这个弧度的肚腩向X轴凸,如果每个人的收入差距出现巨大悬殊的时候,曲线是怎么样的呢?可以改变下数值:

照样是10 个人,但他们的收入有巨大的悬殊差距:

A1=7;A2=8;A3=100;A4=300;A5=450;A6=600;A7=900;A8=1300;A9=2000;A10=6000

这10个人的总收入是: 11665=7+8+100+300+450+600+900+1300+2000+6000

继续将这些人按照收入从低到高进行排序,并且划分成5组,然后继续按照上面的方法计算出坐标点:

分组1:[A1,A2],总收入7+8=15,坐标点为:[2,15]
分组2:[A3,A4],总收入100+300=400,再加上分组1的数值,坐标点为:[4,415]
分组3:[A5,A6],总收入450+600=1050,再加上分组1和2的数值,坐标点为:[6, 1465]
分组4:[A7,A8],总收入900+1300=2200,再加上分组1和2和3的数值,坐标点为:[8, 3665]
分组5:[A9,A10],总收入2000+6000=8000,再加上分组1和2和3和4的数值,坐标点为:[10, 11665]



从上图可以看出,收入出现巨大悬殊的时候,线条弯曲度更加弯曲,弯向X轴;由此可推出,收入差距处于极端的时候,线条就像一个直线,垂直于X轴;当收入人人相同的时候,就是一条直线与X轴45度夹角。

这既是洛伦茨曲线。

接下来,基尼系数是什么呢?就是在洛伦茨曲线的图上继续计算一些面积数值比例。先看下图:



上图绿色线条就是之前说的人人收入平等的线条,蓝色线条就是收入出现差距的线条。

现在以垂直于X轴的黑色虚线为边界,要计算两个面积:

1 绿色线条和蓝色线条之间的面积A
2 蓝色线条和X轴的面积B

然后将得到的面积数值代入以下公式:G=A / (A+B),最终得到的G值,就是基尼系数值。

现在问的关键,如何计算这些不规则的面积呢?其实只要计算出面积B的值,就能知道面积A的值了,毕竟总面积就是一个直角三角形,这个可以计算出来。

那么如何计算面积B的值呢?用带有点误差的计算方式进行计算,方法:

将面积B看成是由多个梯形组成的大面积,将每个分组的坐标点作一条垂直于X轴的直线,就得到很多梯形啦,将这些梯形的面积都累计起来,就得到一个近似B的面积值。(提示:如果分组越多,梯形越多,那么最终计算结果误差就越小)。入下图所示:



梯形的面积就是:(上底+下底)x 高度 / 2

下底长度:当前分组的Y轴值Y2
上底长度:上一个分组数据的Y轴值Y1
高度:当前分组的X轴值X2,减去上一个分组的X轴值X2,即:高度 = X2 - X1

关于基尼系数,其实还有其他公式,但需要推导,推导过程就不写了,基尼系数与洛伦茨曲线的关系就这样了,它们可以应用在很多方面,在机器学习里也有相关的应用。

用一句话来概括,基尼系数就是反应调查对象在Y轴的值所代表的意义的差距是否悬殊。
留言

有啥想说的就说吧,有啥想问的就问吧
Good good study, day day up!

名称

Email

内容

预览(只读), 点击返回编辑.

 
最新文章
 
留言
版权所有 © 2020 mypcrun.com.
桂ICP备19002156号桂公网安备 45070202000667号
这回把网站设计得那么漂亮,这下子不会被人笑了吧。