• 学术立会
  • 科技强会
  • 服务兴会
大数据、人工智能等数据技术在抗击新冠肺炎疫情中的应用及启示
发布日期:2022年06月13日 来源:中国精算师协会

2020年初爆发的新型冠状肺炎疫情是我国社会、经济发展中遇到的一次重大突发公共卫生事件,对我国社会、经济发展带来重大挑战,全国人民和各行各业众志成城,共同奋斗,为打赢这场特殊的战役贡献力量。在这次抗击疫情的战斗中,大数据、人工智能等数据科学技术也在抗疫的各个方面发挥了重要的“助攻手”的作用。

 

疫情风险的管控与保险风险的管理有着诸多相似之处,为充分理解和学习数据科技在抗疫中的作用,参考和借鉴抗疫相关经验以提高保险风险管理能力,中国精算师协会传染病数学模型研究对大数据、人工智能等数据技术在本次抗击新冠肺炎疫情中的应用进行了研究。从风险识别、风险管控、风险处置等角度探讨大数据技术在未来精算工作中的潜在应用领域及价值,为实现精算发展的技术转型提供参考和思路。

 

一、大数据技术在疫情防控中的应用

 

(一)风险识别

 

此次疫情防控的难点之一是病毒的传播速度快,因此迅速找到疑似感染人员并尽早对其实施隔离治疗是控制病毒扩散的关键手段。在此过程中大数据和人工智能主要在两个方面发挥了作用:

 

1. 智能体温检测。一些企业研发了智能红外测温设备和算法,其中百度公司为北京北部的综合交通枢纽清河高铁站提供的远距离体温检测方案能在1分钟同时检测200人的体温,误差在0.3℃以内。

 

2. CT诊断辅助。上海市公共卫生临床中心通过从新冠肺炎患者CT片中提取定量参数开发智能算法可对肺炎严重程度进行智能评估,将医生的确诊时长从5-6小时大幅压缩至几分钟。

 

这些应用一般使用了基于卷积神经网络模型(CNN)开发的图像识别算法,其基本流程是首先将图片的像素信息转化为张量,再从中提取有效特征,最后通过神经网络模型寻找合适的映射关系实现对结果的预测。

 

(二)风险管控

 

1. 疫情发展预测。通过已有信息搭建流行病学模型,主流的模型包括SISSIRSEIR等时间序列模型。这些模型的主要原理是将人群分为易感者、感染者等几类,并根据流行病学研究及疫情早期数据估计各类别间单向或双向的转移概率等主要参数预测最终整个群体中的感染人数、峰值与拐点时间等。

 

钟南山院士团队在SEIR模型中加入国家强力干预和春节后的回程高峰影响开发了SEQR模型,该模型预测中国境内确诊人数在228日达到顶点,预计最终累计感染人数12.2万人。他们还尝试了LSTM循环神经网络模型预测感染人数。

 

 

 

 

备注:1)图表源于“Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions”;2)蓝色线表示考虑123日开始实施国家管控措施后的预计感染人数;3)灰色和红色线分别表示假设管控措施在5天后和5天前实施的预计感染人数。

 

 

2. 舆情监控分析。舆情监控有助于掌握群众思想动态,为及时调整舆论引导提供数据基础。国家预警信息发布中心与百度联合推出的疫情大数据实时查询服务中就包含了“全民热搜”板块,该板根据搜索内容分类统计搜索次数最多的话题。以32日疫情热搜排行榜为例,当日“新冠肺炎实时动态”的搜索次数为64万次排名第一。

 

新华睿思也基于热搜数据对“复工”话题进行了舆情分析,发现“交叉感染”和“潜伏期”是高频词汇,“口罩”、“消毒喷剂”、“护目镜”是网民最关心的防疫设备。除了词频统计外舆情监控还可以进行文本分类和情感分析,关于复工措施50.57%的网友表示支持,17.26%表示担心,10.59%表示淡定。

 

舆情分析属于自然语言处理(NLP),是人工智能的一个重要领域,技术方面主要依靠网络爬虫和文本分析。网络爬虫是从指定的公开网站中获取特定信息的技术。文本分析主要依靠分词、停词将非结构化的评论等转化为结构化的关键词及词频数据,再通过规则、机器学习模型等方法识别这些关键词所反映的主要内容和表达的情感。

 

3. 个人风险管控。如何更好地帮助个体做好防护、识别周遭风险是提高个人防控意识、减少被感染概率的重要手段。 在这方面很多机关、机构相继推出了风险统计查询工具,最基础的是分地区的感染人数统计,同时包括各类人数的变化等。百度、丁香医生等都推出了相应的查询服务。随后根据用户GPS定位和公开的确诊人员生活地点开通了风险地图查询功能,可以帮助用户发现周围的确诊人数密度。然后是同乘查询,即查询用户所乘坐的飞机、高铁等是否存在同乘人员确诊的情况。在支付宝等工具中可以查到相关信息。运营商们也基于手机信号开发了相应的风险识别工具,例如联通的“极目大数据新冠肺炎疫情风险预测”,通过基站接收的手机信号统计人口流动变化,再结合确诊人员分布、气候等信息,通过时空搜索算法、SEIR等模型预测用户周围的疫情传播风险,精度准确到所在小区。政府官方上线的“健康宝”、“健康码”等可能整合了更多方面的数据资源,其中“杭州市健康码”披露其使用了时间、空间、人际关系三种维度综合判断居民风险。

 

(三)风险处置

 

解决新冠病毒疫情的根本手段是加快对病毒的研究从而研制特效药物和专项疫苗。1月底百度研究院向相关机构免费开放其线性时间算法LinearFold以及世界上现有最快的 RNA 结构预测网站,可以大幅提升新型冠状病毒的全基因组二级结构预测约120倍。

 

(四)其他方面

 

疫情初期,武汉红十字会在接收和分配捐赠款物工作中存在分发效率等问题。为提高慈善机构的公信力,中国雄安集团数字城市公司等倡议上线了基于区块链技术的捐赠平台,借由区块链信息透明、可追溯、难篡改的技术特点和优势提高工作效率,接受监管和公众的监督。

 

二、大数据技术应用的思考

 

通过大数据、人工智能等科技在疫情防控中的应用,我们可以发现数据分析工作正向着多元化、复杂化、共享化等趋势转变,这些趋势值得我们思考、学习和借鉴。

 

(一)数据越发多源丰富。在疫情防控过程中来自医疗、交通、电信、社交等诸多方面的信息以文字、图片、数字、地理位置等各种形式被政府、企业、个人等不同主体加工、分析,最终将结果展现给用户。在这个由大数据技术推动的数据爆发式增长的时代,海量数据正在从各方不断产生,预计在未来这种趋势将越发明显。

 

(二)模型日益复杂精准。随着数据量的增加、数据维度的扩展、数据形态的丰富,大数据技术和机器学习模型将发挥越来越重要的作用。从这次疫情防控中使用的模型来看,神经网络等比较复杂的机器学习模型已在诸多领域有着非常成熟及深入的应用。针对不同数据使用特定模型,再将之整合优化也是趋势之一。随着数字和计算机科技的不断发展,模型也将越来越精准,但复杂度也势必倍增。

 

(三)外部因素影响重大。在此次疫情的预测中,不同主体预测的结果差异较大。钟南山院士在227日的新闻发布会上表示,有的国外专家在没有考虑到中国政府管控手段等因素的情况下,预计2月初中国感染人数就会高达16万人,与实际情况偏差较大。因此模型需要考虑到包括动态调整的管控手段、诊疗方案修改、感染统计口径更新等不断发展变化的外部因素,更需要不断调整完善才能更加客观反映实际情况。平时的数据分析模型中也需要考虑到参与者行为、制度约束、外部环境等变化的影响。

 

(四)信息共享愈发重要。在此次抗击疫情的战斗中仍有部分人员瞒报行程导致更多接触人员被隔离甚至感染的情况。整理这些情况发现除了监测人员疏忽失职外,个人的信用道德风险是主要原因。如果能够共享相关数据,第一时间识别相关人员的历史居留地和健康轨迹,可能进一步提高疫情防控的效率。另外,为了提高全民的信用意识和信用水平,也可以考虑研究打通相关机构的数据壁垒,通过区块链等技术实现数据的安全共享,降低道德风险。

 

三、对保险公司精算分析工作的启示

 

鉴于以上大数据应用的经验及发展趋势,大数据分析技术不仅能够提供有力的技术支撑,而且能够容纳多元化的丰富信息,全方位的识别客户风险特点,高效还原客户的风险需求,并带来差异化的服务和竞争。相信保险公司的精算分析工作也能得到推动和促进。

 

(一)数据获取及特征筛选是开展大数据分析的基础。

 

数据是分析预测工作的基础,保险公司精算分析工作一方面可以扩展公司内部数据,比如基于理赔过程中的对话记录进行文本分析预测客户诉讼的概率,比如打通业务销售数据、用户特点数据、用户收入数据、客户查询数据、用户行为数据等,通过统计模型来描述用户的风险特点。另外一方面可以寻找外部数据,例如合作获取天气信息、交管信息、地理信息、客户的旅游爱好、教育需求、文化需求、位置轨迹、理财需求、游戏爱好、体育爱好等,借鉴客户外部行为数据,丰富客户信息,通过大数据技术更准确地了解客户的风险水平,形成360度用户画像。

 

数据筛选能力包含数据质量分析和重要信息提取两个部分。Garbage-In Garbage-Out”体现了数据质量的重要性。在丰富多源的数据面前,快速判断出数据的有效性、提升数据质量的能力尤为重要,特别是非结构化数据方面。重要信息提取即特征工程,在众多维度特征中准确寻找关键信息,通过现有信息创造更有效的特征,这些工作的重要性可能胜过模型本身。

 

(二)模型运用及统筹管理是大数据应用的技术支撑。

 

面对日益丰富的数据和复杂的分析场景,加快先进模型的运用开发,进一步提高精算分析人员的技术能力有助于提高保险公司的专业性和技术优势。虽然目前完全使用机器学习模型定价和评估准备金尚不成熟,但是已有一些有益的尝试,至少在特征工程等方面可以辅助目前的工作,在销售支持、估损预测、反欺诈等其他领域也可以发挥作用。

 

目前保险公司的精算模型数量和类型尚比较有限,但随着数据源的增加和算法的丰富,模型将越来越多、越来越复杂,再加上模型整合和更新迭代的要求,管理公司数据、模型资产将成为一项重要工作。

 

(三)业务理解及有效沟通是数据分析价值得到认可的关键因素。

 

大数据、人工智能、区块链等都是技术手段,归根结底需要与业务场景相结合才能发挥更大的应用价值。与业务部门组成联合项目组,让业务人员在过程中参与,建立良好的沟通机制和氛围,不断提升对业务前端的理解和认知是将数据技术转化为生产力的必经途经。群策群力才能充分考虑内外部各种因素变化,避免模型出现较大偏差,让模型结果得到充分理解和有效应用。

 

(四)大数据应用将快速推进差异化的客户管理及风险服务。

 

如何将分析预测结果落地服务于客户、帮助客户更好地管理风险是数据和模型最终的价值体现。随着云计算、大数据等技术的运用,互联网参与方获取和深度挖掘信息的能力大幅提高,消费者交易行为逐步实现可记录、可分析、可预测,保险行业的定价模式也在随之变化,比如对风险因子进一步细分。以车险为例,随着商车改革的深化,定价技术快速提高,新的风险因素被引入、原有的风险因素被深入挖掘,能够更准确地描述并预测客户风险。在大数据的支持下,保险公司可以真正以客户为中心,把客户分为成千上万种,每个客户都有个性化的解决方案,这样保险公司经营就完全可以实现差别费率,保险公司之间就可以实现真正的差异化竞争。

 

(本研究报告执笔人:孙启峰、傅宝丽)


下一篇: 山东环境科学学会环境风险与健康专业委员会 开展“全国科技工作者日”对接交流会
上一篇: 习近平:把中国文明历史研究引向深入增强历史自觉坚定文化自信

地址:北京市丰台区西三环南路14号院1号楼2419 邮箱:mishuchu9986@126.com 邮编:100071 

 培训咨询监督电话 010-52596050 转 6010 监督投诉电话:010-52596050转607 秘书处电话:010-52592251  

网络技术信息中心:北京国钜科技实业股份有限公司

地址:北京市海淀区知春路1号学院国际大厦907B 邮编:100191 电话:010-82089470 邮箱:contactus@cmea.org.cn

京ICP备11043014号-13     备案图标 (1).png京公网安备 11010602103342号