主页 > imtoken和比特派 > R语言在伽玛和对数正态分布假设下,通过广义线性模型评估和预测大额索赔

R语言在伽玛和对数正态分布假设下,通过广义线性模型评估和预测大额索赔

imtoken和比特派 2023-03-16 05:59:00

最近,一位客户要求我们撰写一份关于大额索赔估值预测的研究报告,包括一些图形和统计输出。

人们很自然地假设,不仅个人索赔频率可以用某些协变量来解释,而且个人成本也可以解释。

当然,考虑到

https://latex.codecogs.com/gif.latex?Y

在多个协变量的情况下,应考虑使用适当的族对成本分布进行建模。以下

https://latex.codecogs.com/gif.latex?\boldsymbol{X}

是我们将使用的数据集,

通常用于成本建模的族是伽马分布或逆高斯分布或对数正态分布(它不在指数族中单个etc成本,但可以假设成本的对数可以用高斯分布建模)。 这里只考虑一个协变量,例如汽车的年龄,以及两个不同的模型:Gamma 模型和对数正态模型。

> age=0:20
> reggamma.sp <- glm(cout~agevehi,family=Gamma(link="log"),

农行etc合适还是邮储etc合适_单个etc成本_武汉etc 高速etc

+ data=couts) > Pgamma <- predict(reggamma.sp,newdata=data.frame(agevehi=age),type="response")

对于 Gamma 回归,它是一个简单的 GLM,所以并不难。 对于对数正态分布,应该记住对数正态分布的期望值不是基础高斯分布的指数。 应该进行更正以获得平均成本的无偏估计,

我们可以在一张图上绘制这两个预测,

> plot(age,Pgamma,xlab="",ylab="",col="red",type="b",pch=4)
> lines(age,Pln,col="blue",type="b")

单个etc成本_武汉etc 高速etc_农行etc合适还是邮储etc合适

也可以使用样条曲线,因为年龄在这里不可能以乘法方式出现

武汉etc 高速etc_单个etc成本_农行etc合适还是邮储etc合适

单个etc成本_武汉etc 高速etc_农行etc合适还是邮储etc合适

在这里,两个模型非常接近。 但是,Gamma 模型可能对大额索赔非常敏感。 另一方面,通过对数正态模型的对数变换,可以看出该模型对大额索赔不太敏感。 事实上,如果我使用完整的数据集,回归如下:

武汉etc 高速etc_单个etc成本_农行etc合适还是邮储etc合适

也就是说,具有对数正态分布的平均成本随着汽车年龄的增加而降低,并随着 Gamma 模型的增加而增加。

> couts[which.max(couts$cout),]
         cout exposition zone puis agevehi ageconduct
7842  4024601       0.22    B         9          13            19
     marque carbur densi region
7842      2         E      93     24

一名年轻司机驾驶一辆 13 年车龄的汽车索赔 400 万美元。 这是 Gamma 回归的异常值,显然会影响估计值(如果只是第二大的话,也是第二大)。 由于大额索赔对平均成本的估计有重大影响,自然的想法可能是删除这些大额索赔。 或者也许将它们视为与正常索赔不同:正常索赔可以用一些协变量来解释,但也许这些大额索赔不仅应该在他们自己的类别中共享,而且应该在投资组合中的所有被保险人之间共享。为了将这个想法形式化,我们可以写

单个etc成本_农行etc合适还是邮储etc合适_武汉etc 高速etc

https://latex.codecogs.com/gif.latex?\mathbb{E}(​​Y|\boldsymbol{X})%20=%20{\color{Blue}%20{\underbrace{\mathbb{E} (Y | \ boldsymbol {X},Y \ leq%20s)} _ {A}%20 \ cdot%20 {\ underbrace {\ mathbb {P}(Y \ leq%20s | \ boldsymbol {X})} __ {B}}}} + {\ color {Red}%20 {​{\ underbrace {\ mathbb {E}(Y | Y%3E%20s,%20 \ boldsymbol {X})%20} _ {C}} \ cdot%20 {\ underbrace {\ mathbb {P}(Y%3E%20s |%20 \ boldsymbol {X})} _ {B}}}}

蓝色部分与正常大小的索赔相关联,而大部分对应于红色部分。 然后,可以进行三种回归:一种用于正常大小的索赔,一种用于大额索赔单个etc成本,一种用于大额索赔的指标(假设索赔发生)。超过 10,000 美元的大额索赔

> s= 10000
> couts$normal=(couts$cout<=s)
> mean(couts$normal)
[1] 0.9818087

我们数据集中 2% 的索赔。 我们可以进行 3 组回归,并根据车龄进行平滑回归。 第一个模拟大额索赔的个人成本的模型,


> ypB=predict(regB,newdata=data.frame(agevehicule=age),type="response")

农行etc合适还是邮储etc合适_单个etc成本_武汉etc 高速etc

> ypB2=mean(couts$cout[indice])

第二种模式通常要求个人成本,


> ypA=predict(regA,newdata=data.frame(agevehicule=age),type="response")
> ypA2=mean(couts$cout[indice])

最后,假设已经发生索赔,则提出第三种索赔可能性

> ypC=predict(regC,newdata=data.frame(agevehicule=age),type="response")
> ypC2=predict(regC2,newdata=data.frame(agevehicule=age),type="response")

在下图中,我们绘制

单个etc成本_武汉etc 高速etc_农行etc合适还是邮储etc合适

https://latex.codecogs.com/gif.latex?\mathbb{E}(​​Y|\boldsymbol{X})%20=%20{\color{Blue}%20{\underbrace{\mathbb{E} (Y | \ boldsymbol {X},Y \ leq%20s)} _ {A}%20 \ cdot%20 {\ underbrace {\ mathbb {P}(Y \ leq%20s | \ boldsymbol {X})} __ {B}}}} + {\ color {Red}%20 {​{\ underbrace {\ mathbb {E}(Y | Y%3E%20s,%20 \ boldsymbol {X})%20} _ {C}} \ cdot%20 {\ underbrace {\ mathbb {P}(Y%3E%20s |%20 \ boldsymbol {X})} _ {B}}}}

在这里,伽马回归(包括样条)被认为是成本平均,而逻辑回归(也包括样条)被认为是对概率建模。

农行etc合适还是邮储etc合适_武汉etc 高速etc_单个etc成本

应进行调整以获得足够的保费水平。这是

https://latex.codecogs.com/gif.latex?\mathbb{E}(​​Y|\boldsymbol{X})%20=%20{\color{Blue}%20{\underbrace{\mathbb{E} (Y | \ boldsymbol {X},Y \ leq%20s)} _ {A}%20 \ cdot%20 {\ underbrace {\ mathbb {P}(Y \ leq%20s | \ boldsymbol {X})} __ {B}}}} + {\ color {Red}%20 {​{\ underbrace {\ mathbb {E}(Y | Y%3E%20s)%20} _ {C%27}} \ cdot%20 {\括号{\ mathbb {P}(Y%3E%20s |%20 \ boldsymbol {X})} _ {B}}}}

农行etc合适还是邮储etc合适_武汉etc 高速etc_单个etc成本

更进一步,还可以假设不仅索赔的规模(假设索赔很大)不是任何协变量的函数,而且拥有极大索赔的可能性也不是。

https://latex.codecogs.com/gif.latex?\mathbb{E}(​​Y|\boldsymbol{X})%20=%20{\color{Blue}%20{\underbrace{\mathbb{E} (Y | \ boldsymbol {X},Y \ leq%20s)} _ {A}%20 \ cdot%20 {\ underbrace {\ mathbb {P}(Y \ leq%20s)} _ {B%27}} }} + {\ color {Red}%20 {​{\ underbrace {\ mathbb {E}(Y | Y%3E%20s)%20} _ {C%27}} \ cdot%20 {\ underbrace {\ mathbb {P}(Y%3E%20s)} _ {B%27}}}}

单个etc成本_农行etc合适还是邮储etc合适_武汉etc 高速etc

从第一部分,我们看到考虑的分布对预测有影响,在第二部分,我们看到大额索赔的定义(以及如何处理)也有影响。 显然,精算师在利率评估方面有一定的影响力。

农行etc合适还是邮储etc合适_武汉etc 高速etc_单个etc成本