关于医疗费用影响因素统计分析报告

2022.11.20

岳紫蕊

摘要为了弄清医疗费用的影响因素有哪些，本文以现存的医疗保险公司数据资源为依托，进行数据整合并加以利用，从而更加清楚地了解医疗成本的影响因素，为医疗保险公司如何构建其医疗保险产品作出更有价值的判断，分析医疗保险公司是选择向所有申请人提供保险，还是成为一家只向少数人提供保险的精品保险公司。本文应用数据分析的方法从大量保险行业数据中较为科学地取得有价值的信息，使用SPSS（Statistical Product and Service Solutions，即“统计产品与服务解决方案”软件）对一家医疗保险公司进行数据分析，找出医疗成本影响因素。

关键词医疗费用影响因素描述统计分析假设检验分析

一、问题提出

随着我国整体经济的飞速发展，人们的生活质量得到了很大程度的改善，人们的目标从原本的解决温饱转变为现在的追求更加绿色、健康、有保障的高質量生活，除了经济条件的改善更多的是源于人们观念上的转变。在著名的马斯洛需求层次理论中，我国已经超越了追求生理需求的阶段，大部分国民开始追求安全层次需要，即人身安全、健康方面。当人们医疗费用过于高昂时，人们往往会寻求医疗保险公司来为自己承担风险，所以很多人都会选择购买保险。而医疗保险公司要怎样构建自己的医疗产品，是向所有申请人提供保险还是成为一家只向少数人提供精品保险的保险公司？这个问题值得我们思考。

在这个时候，对保险公司来说，哪些因素会影响医疗费用账单就显得至关重要，本文就依托保险公司的数据，进行影响医疗费用账单的因素分析。

二、数据的收集

本文想要分析医疗费用的影响因素，从而帮助医疗保险公司构建其产品。因为个人医疗费用账单和相关信息为个人隐私，国家相关的统计网站无法获得，所以本文从美国某医疗保险公司获取数据，原始数据从GitHub上获得。

三、数据的预处理

（一）数据审核

拿到数据之后，对数据进行了审核，检查数据中是否有错误。

（二）数据筛选

在检查了数据之后，对数据进行了挑选，挑选了几个可能会影响医疗费用的因素。

（三）数据整理与排序

挑选完变量之后，将相关数据导入SPSS并排序，因为要对数据进行处理，所以要在SPSS软件中对变量进行重新命名便于更好地分析，命名结果如下：1.年龄：主要受益人的年龄;2.性别：女性1，男性0;3.标准体重：体重指数，理想的体重指数是18.5～25;4.儿童：健康保险覆盖的儿童数量;5.糖尿病：如果是糖尿病患者则为1，否则为0;6.地区：美国境内居民的居住地，东北（1）、西北（2）、东南（3）、西南（4）;7.费用：如果健康保险收取的个人医疗费用很高则为1，否则为0。

四、数据分析

（一）频数分析

通过对频数的分析可以了解变量的取值情况。此次主要利用数据表分析性别、地区、糖尿病、健康保险覆盖的儿童数量、费用这5个变量的分布特点。

1.性别。此次调查数据显示男女的比例差距不大，男性为49.5%，女性为50.5%，女性略多于男性。

2.地区。此次调查数据显示，分为来自东北、西北、东南、西南4个地区，地区间的差距也不明显，东南地区略多于其他3个地区。

3.糖尿病。由所取数据得知，未患糖尿病占79.5%，患糖尿病占20.5%，未患糖尿病的比例远高于患糖尿病。

4.儿童数量。由所取数据得知，健康保险覆盖的儿童数量为0的最多，健康保险覆盖的儿童数量为5的最少。

5.医疗费用。由所取数据得知，医疗费用不高占14.8%，医疗费用很高占85.2%。保险费用整体较高。

（二）描述统计分析

在通过简单的频数统计分析了解了性别、地区、糖尿病、健康保险覆盖的儿童数量的总体、费用分布状况后，我们还需要对数据中的BMI（身体质量指数）、健康保险覆盖的儿童数量、地区、年龄这4个变量的特征有更为精确的认识。

1. BMI。如表1所示，BMI均值为30.663，超过了理想的体重指数（18.5～25）的范围;标准差不大，说明离散程度小，数据的代表性好;SK=0.284>0，表明BMI的分布为右偏分布，但偏斜程度不大;K=﹣0.51，表明BMI扁平分布更分散。

2.健康保险覆盖的儿童数量。如表2所示，健康保险覆盖的儿童数量的标准差不大，说明离散程度小，数据的代表性好;SK=0.938>0，表明健康保险覆盖的儿童数量的分布为右偏分布，但偏斜程度不大;K=0.202，表明健康保险覆盖的儿童数量的分布尖峰分布更集中。

3.地区分布。如表3所示，地区分布的标准差不大，说明离散程度小，数据的代表性好;SK=﹣0.38<0，表明地区分布为左偏分布，但偏斜程度不大;K=﹣1.328，表明地区分布扁平分布更分散。

4.年龄分布。如表4所示，年龄均值为42.21，标准差不大，说明离散程度小，数据的代表性好;SK=0.056>0，表明年龄的分布为右偏分布，但偏斜程度不大;K=﹣1.245，表明年龄分布为扁平分布更分散。

（三）假设检验分析

1.糖尿病因素。经过初步统计，根据SPSS所得图表来看，我们所关心的是在这些变量中哪些变量在作出决定时最重要，于是可以假设：

H0：糖尿病不会影响医疗费用成本

H1：糖尿病会影响医疗费用成本

根据SPSS分析数据可得，P值=0<α=0.05，拒绝H0，说明糖尿病会对医疗成本造成影响。

2.年龄因素。当未患糖尿病时，我们假设：

H0：当年龄≤47时对费用没有显著性差异

H1：当年龄>47时对费用有显著性差异

如表5所示，根据SPSS分析数据可得，P值=047时对费用有显著性差异，年龄>47时影响医疗费用因素。

当患糖尿病时，我们假设：

H0：当BMI≥30.360对费用没有显著性差异

H1：当BMI<30.360对费用有显著性差异

如表6所示，根据SPSS分析数据可得，P值=0<α=0.05，拒絕H0，说明当BMI≥30.360时对费用有显著性差异。

3.性别因素。当我们想研究性别与费用之间的关系时，可以假设：

H0：性别对费用没有显著性差异

H1：性别对费用有显著性差异

如表7所示，根据SPSS分析数据可得，P值=0.06>α=0.05，不拒绝H0，说明方差相等。根据SPSS分析数据可得，P值=0.06>α=0.05，不拒绝H0，说明性别对费用没有显著性差异。

4.儿童数量因素。当我们想研究儿童数量与费用之间的关系时，可以假设：

H0：儿童数量对费用没有显著性差异

H1：儿童数量对费用有显著性差异

如表8所示，根据SPSS分析数据可得，P值=0.218>α=0.05，不拒绝H0，说明儿童数量对费用没有显著性差异。

5.地区分布因素。当我们想研究地区与费用之间的关系时，可以假设：

H0：地区对费用没有显著性差异

H1：地区对费用有显著性差异

如表9所示，根据SPSS分析数据可得，P值=0.011<α=0.05，拒绝H0，说明地区对费用有显著性差异。

五、得出结论

由上述分析可知，导致较高保险成本的主要因素有糖尿病、年龄≥47、BMI≥30.360、健康保险覆盖的儿童数量。所以对保险公司来说，从上文的数据分析可以看出来，保险公司可以利用数据分析来对自己的产品进行设计，让自己的产品带来的利益更高，而且可以向少数的特定人群来进行产品销售。

保险公司可用数据分析技术，对现有的投保人信息进行分析，得到购买保险的客户特征，做到精确定位，对客户对象更有针对性地进行销售，不仅可以节省时间，而且能够在一定程度上提高效益，预测客户需求，定制个性化方案。由于现在市面上的保险企业众多，如何长久地在保险行业立足，靠的就是企业自身的能力与客户的口碑，所以为了给客户提供更好的体验，建立稳定的客户群体，预测客户的需求，定制其个性化选择方案，使用大数据分析技术就可以分析出什么特征的人群对哪些险种的需求量较大，从而对客户进行更加准确的种类推荐。

（作者单位为四川大学锦城学院金融学8班）

参考文献

[1] 陈祺琦.大数据分析在保险行业中的应用[J].电子世界，2020（10）：36-38.