指数分布
当一个随机变量X ~ exp(λ)时,它的密度函数为:
f(x)={λe−λx,(x≥0)0,(x<0).
1 泊松分布
前面介绍伽马分布的时候介绍过,伽马分布族是泊松分布中参数与指数分布中参数的共轭先验分布族,同时,指数分布是伽马分布的特例。其实,指数分布与泊松分布有着密不可分的联系,这也是通常把指数分布与泊松分布中的参数一般都计作λ的原因。
随机变量ξ服从参数为λ的Poisson分布,即ξ~P(λ),那么ξ的分布列为:
P(ξ=k)=k!e−λλk(λ>0).
服从指数分布的随机变量X是连续型随机变量;服从泊松分布的随机变量ξ是离散型随机变量。ξ的实际意义可以是单位时间内事件发生的个数(一种计数),即P(ξ=k)=k!e−λλk意味着: 单位时间内,特定事件发生的次数为k的概率为k!e−λλk.
简单使用级数,可以求出:
E(ξ)=k=0∑∞kk!e−λλk=λ
即在服从P(λ)的 ξ 的密度函数表达式中,参数λ的意义是,单位时间内发生特定事件次数的期望值。可以将在时间 t 内发生事件的次数的随机变量可记为N(t), 则有N(t)∼P(λt),即:
P(N(t)=k)=k!e−λt(λt)k(λ>0).
将在两次事件发生之间的时间间隔的随机变量记为T, 根据这个意义,T为一个连续型随机变量。
FT(t)=P(T≤t)=1−P(T>t)=1−P(N(t)=0)=1−e−λt(t≥0)
则:
fT(t)=λe−λt(t≥0)
事件发生的次数服从参数为λ的泊松分布,两次之间的时间间隔作为一个随机变量服从参数为λ指数分布。使用分部积分,可以求出随机变量T的期望为:
E(T)=∫0+∞tλe−λtdt=λ1
综上,可以理解参数λ的实际意义:λ是单位时间内发生事件个数的期望,两次事件发生之间的时间间隔的期望为λ1.
2 生存分析
在生存分析中,生存时间的分布类型不易确定。一般近似服从指数分布、Weibull分布、Gompertz分布、对数正态分布、对数logistic分布等。除指数分布外,其他分布都在一定条件下呈现为“s型”生长曲线。
2.1 风险函数
在生存资料的分析中,可以使用 Cox 回归。上面定义随机变量 T 为两次事件发生之间的时间间隔,在我们衡量一个病人可以生存的时间时(从起始事件到终点事件的时间),可以使用 T, 将其作为一个服从参数为 λ 的指数分布的随机变量。下面介绍生存分析中的因变量。
如果有n个病人,将这n个病人的生存时间的随机变量记为T1,T2,...,Tn, 则有Ti的密度函数:
fTi(ti)=λie−λiti,(i=1,2,...,n)
Ti的分布函数为:
P(Ti≤ti)=FTi(ti)=1−λie−λiti,(i=1,2,...,n)
对应的生存函数为:
STi(ti)=P(Ti>ti)=1−FTi(ti)=e−λiti,(i=1,2,...,n)
风险函数为:
hTi(ti)=STi(ti)fTi(ti)=λi
事实上,风险函数的分子部分是一个条件概率,求的是在一个病人已经生存到时间 t 的条件下在时间 t 的瞬时死亡率。风险函数值越大,瞬时死亡率越高,病人越危险。即:
h(t)=S(t)f(t)=△t→0lim△tF(t+△t)−F(t)/P(T>t)
=△t→0lim△tP(t<T≤t+△t)/P(T>t)
=△t→0lim△tP(t<T≤t+△t∣T>t)
如果要建立 Cox 回归模型,首先要计算出每个患者所对应的 hTi(ti)=λi, 在使用贝叶斯思想对λi 进行参数估计时,可以用伽马分布(伽马分布中的参数估计可以再用均匀分布作为超先验分布)表示出λi 的分布情况,然后使用合适的统计量(例如众数或者均数)进行估计。
2.2 威布尔分布
服从参数为λ与k的两参数Weibull分布的随机变量T的密度函数为:
f(t)=λk(λt)k−1e−(λt)k,(t≥0)
很明显,当参数k=1时,随机变量T服从参数为λ1的指数分布。指数分布是Weibull分布的特例。Weibull分布也广泛地应用于生存资料的分析中。但威布尔分布更广泛地适用于机械结构失效分析过程中,许多有关威布尔分布的研究表明,如果某系统的局部失效导致了整个系统的功能失灵,则这种系统寿命一般服从Weibull分布。
T的分布函数为:
P(T≤t)=F(t)=1−exp{−(kt)k},(t≥0)
可靠度函数(对应于生存分析中的生存函数)为:
R(t)=P(T>t)=1−F(t)=exp{−(kt)k}
失效率函数(对应于生存分析中的风险函数)为:
λ(t)=R(t)f(t)=λk(λt)k−1
2.3 对数正态分布
在介绍对数正态分布时,先介绍一个定理:
定理#: 已知随机变量X的密度函数,且t=g(x)严格单调,其反函数x=h(t)有连续导函数,那么:
fT(t)={fX[h(t)]∣h′(t)∣,(min{g(−∞),g(+∞)}<t<max{g(−∞),g(+∞)}0,其他
若随机变量X∼N(μ,σ2), 则随机变量T=eX服从对数正态分布。 应用定理#,那么T=eX的密度函数为:
f(t)=⎩⎪⎨⎪⎧t2πσ1exp{−2σ2(lnt−μ)2},t>00,t≤0
T的生存函数与风险函数与上面2.1一致。
2.4 log-logistic分布
随机变量X服从logistic分布,则 T=eX服从 log-logistic分布。这里选取一种logistic分布的特例进行解释。
随机变量X的密度函数为:
f(x)=(1+e−x)2e−x
应用定理#,那么T=eX的密度函数为:
f(t)=⎩⎪⎨⎪⎧(1+t)21,t>00,t≤0
T的生存函数与风险函数与上面2.1一致。
相关阅读
泊松分布,指数分布介绍以及其联系与区别
本文转载于:https://blog.csdn.net/lyl771857509/article/details/79003585原文出处:http://www.ruanyifeng.com/blog/2015/06/pois
指数分布的分布函数讲解
指数分布是连续型随机变量的连续型概率分布的一种,它主要应用在随机事件之间发生的时间间隔的概率问题。前面讲述的泊松分布是描述