統(tǒng)計(jì)學(xué)里面,正態(tài)分布(normal distribution)最常見。男女身高、壽命、血壓、考試成績、測量誤差等等,都屬于正態(tài)分布。
以前,我認(rèn)為中間狀態(tài)是事物的常態(tài),過高和過低都屬于少數(shù),這導(dǎo)致了正態(tài)分布的普遍性。最近,讀到了 John D. Cook 的文章,才知道我的這種想法是錯(cuò)的。
正態(tài)分布為什么常見?真正原因是中心極限定理(central limit theorem)。
"多個(gè)獨(dú)立統(tǒng)計(jì)量的和的平均值,符合正態(tài)分布。"
上圖中,隨著統(tǒng)計(jì)量個(gè)數(shù)的增加,它們和的平均值越來越符合正態(tài)分布。
根據(jù)中心極限定理,如果一個(gè)事物受到多種因素的影響,不管每個(gè)因素本身是什么分布,它們加總后,結(jié)果的平均值就是正態(tài)分布。
舉例來說,人的身高既有先天因素(基因),也有后天因素(營養(yǎng))。每一種因素對身高的影響都是一個(gè)統(tǒng)計(jì)量,不管這些統(tǒng)計(jì)量本身是什么分布,它們和的平均值符合正態(tài)分布。(注意:男性身高和女性身高都是正態(tài)分布,但男女混合人群的身高不是正態(tài)分布。)
許多事物都受到多種因素的影響,這導(dǎo)致了正態(tài)分布的常見。
讀到這里,讀者可能馬上就會(huì)提出一個(gè)問題:正態(tài)分布是對稱的(高個(gè)子與矮個(gè)子的比例相同),但是很多真實(shí)世界的分布是不對稱的。
比如,財(cái)富的分布就是不對稱的,富人的有錢程度(可能比平均值高出上萬倍),遠(yuǎn)遠(yuǎn)超出窮人的貧窮程度(平均值的十分之一就是赤貧了),即財(cái)富分布曲線有右側(cè)的長尾。相比來說,身高的差異就小得多,最高和最矮的人與平均身高的差距,都在30%多。
這是為什么呢,財(cái)富明明也受到多種因素的影響,怎么就不是正態(tài)分布呢?
原來,正態(tài)分布只適合各種因素累加的情況,如果這些因素不是彼此獨(dú)立的,會(huì)互相加強(qiáng)影響,那么就不是正態(tài)分布了。一個(gè)人是否能夠掙大錢,由多種因素決定:
家庭
教育
運(yùn)氣
工作
...
這些因素都不是獨(dú)立的,會(huì)彼此加強(qiáng)。如果出生在上層家庭,那么你就有更大的機(jī)會(huì)接受良好的教育、找到高薪的工作、遇見好機(jī)會(huì),反之亦然。也就是說,這不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。
統(tǒng)計(jì)學(xué)家發(fā)現(xiàn),如果各種因素對結(jié)果的影響不是相加,而是相乘,那么最終結(jié)果不是正態(tài)分布,而是對數(shù)正態(tài)分布(log normal distribution),即x的對數(shù)值log(x)滿足正態(tài)分布。
這就是說,財(cái)富的對數(shù)值滿足正態(tài)分布。如果平均財(cái)富是10,000元,那么1000元~10,000元之間的窮人(比平均值低一個(gè)數(shù)量級,寬度為9000)與10,000元~100,000元之間的富人(比平均值高一個(gè)數(shù)量級,寬度為90,000)人數(shù)一樣多。因此,財(cái)富曲線左側(cè)的范圍比較窄,右側(cè)出現(xiàn)長尾。