作品编号:B271(三等奖)
作品名称:基于新型冠状病毒肺炎(COVID-19)疫情数据的可变面元问题(MAUP)效应分析
作者单位:江西师范大学地理与环境学院
小组成员:罗文庭,刘玲,刘颖,冯紫微
指导老师:胡碧松
2019年底中国武汉爆发新型冠状病毒感染疫情,随之全国各省市均有病例被确诊,并逐渐扩散传播至全球,对中国乃至国际社会造成了巨大冲击。MAUP为地理数据三大特征之一,指面状空间单元的大小和分区方法会对分析结果产生显著的影响。其主要包括尺度、粒度和分异效应。其中,尺度效应和粒度效应在《题西林壁》一诗中得到了很好的体现。“横看成林侧成峰,远近高低各不同”。不同视角、不同高度等看庐山,其不同,此为尺度效应;若考虑人眼分辨率固定不变,在大尺度下其地物分辨率较低,在小尺度下其地物分辨率较高,故而有“不识庐山真面目”,此为粒度效应。而在Gerrymandering(考虑通过重新划分选取从而干涉选举)的案例中,则很好的诠释了分异效应。生活中,存在尺度、粒度、分异效应的例子还有很多,那么,疫情数据存在分异效应吗?该作品基于以上思考,从空间统计角度出发,聚焦MAUP问题的三个效应和区域化差异,基于2020.1.20-2020.4.26全国新型冠状病毒病例数据的相关统计指标为基础数据进行分析,探索并验证MAUP相关问题效应。同时,将内容扩展至尺度-粒度-分异,进一步研究分异是否具有尺度效应和粒度效应,为疫情数据MAUP效应的研究进行更加深入的探讨,也为传染病的预防提供一定的参考。 研究湖北省、浙江省、广东省、四川省市级新增病例数据,在1月23日、1月28日、2月14日、2月20日的空间自相关分析、聚类与异常值分析的结果,探究新增疫情数据的空间自相关及聚类与异常值结果是否存在区域化差异。尺度效应的研究分为空间尺度和时间尺度。其中,空间尺度主要是研究空间尺度扩大时(湖北省、湖北及其邻省、全国)的市级新增病例数据,从1月20日到2月29日的空间自相关分析、聚类与异常值分析的结果,从而探究并验证疫情数据的空间自相关及聚类与异常值结果是否存在空间尺度效应。时间尺度研究对全国市级0123、0127、0130、0203、0206、0210、0213、0217、0220、0224、0227、0302、0305、0309、0316、0323、0323、0330、0406、0413、0420、0426累计时间点(时间尺度扩大)病例数据进行空间自相关分析、聚类与异常值分析,研究并验证疫情数据的空间自相关及聚类与异常值结果是否存在时间尺度效应。粒度效应的研究分为空间粒度和时间粒度。其中,空间粒度主要研究不同空间粒度(省级、市级)下新增病例数据在在1月23日、1月28日、2月14日、2月20日的空间自相关分析、聚类与异常值分析的结果。探究并验证疫情数据的空间自相关及聚类与异常值结果是否存在空间粒度效应。时间粒度研究不同时间粒度(三天、一周、两周)下新增确诊病例数据表现出来的区域间空间自相关和聚类与异常值分析结果是否不同,从而探究并验证疫情数据是否存在时间粒度效应。分异效应探究主要分为省级和市级两种分层方案下,其中,省级分层方案主要是以百度迁徙指数、公路密度、GDP、邻接关系、人口结构、人口密度、铁路密度为自变量,市级分层方案以GDP、百度迁徙指数、城市等级、邻接关系、人口密度、纬度为自变量,均以累计病例数据为因变量,使用地理探测器的方法,研究不同影响因子对疫情的影响,以及在因子两两交互时,对结果的作用,从而找出影响疫情蔓延的存在因子。通过地理探测器,研究不同影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)对2月14日市级新增确诊数据的解释力的空间尺度(湖北省、湖北邻省、全国)效应。同时,通过SPSS软件,使用线性回归的方法,进一步研究不同空间尺度下各影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)对市级新增病例数据的共同作用结果,并根据调整后R²指标测度各因子对结果的影响程度。以全国市级累计确诊数据为因变量,影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)为自变量,研究地理探测器结果的时间尺度效应。通过SPSS软件,研究不同影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)共同作用时对市级累计病例数据的关系在时间尺度上有何差异,并根据R²判断拟合的模型能解释因变量的变化的百分数。通过地理探测器,研究不同影响因子对2月14日新增确诊数据的解释力的空间粒度效应(全国市级、省级)。同时,通过SPSS软件,使用线性回归的方法,进一步研究不同时间粒度下各影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)对疫情数据的共同作用结果,并根据调整后R²指标测度各因子对结果的影响程度。研究不同时间粒度下,以不同影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)为自变量,全国市级新增数据为因变量的地理探测器结果的时间粒度效应。通过SPSS软件,研究不同影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)共同作用下对市级累计病例数据的关系在时间粒度上有何差异,并根据R²判断拟合的模型能解释因变量的变化的百分数。
(1) 空间自相关分析
选择邻接边拐角的空间关系概念化方式,对最小行政单元(省或者市)新增、累计确诊人数进行空间自相关分析,可以研究区域化差异、尺度效应、粒度效应、分异效应下的MoranI指数、空间自相关性图2空间自相关分析流程图
图3空间自相关结果图
(2) 聚类与异常值分析
选择邻接边拐角的空间关系概念化方式,对最小行政单元(省或者市)新增、累计确诊人数进行空间自相关分析,可以研究区域化差异、尺度效应、粒度效应、分异效应下区域的高低值聚集情况、异常值分布。图4聚类与异常值分析流程图
图5聚类与异常值分析结果图
(3) 地理探测器
基于不同的分层方案、疫情数据,用地理探测器探究不同影响因子对疫情数据的解释力;比较不同区域疫情数据均值是否有显著差异;不同影响因子对疫情数据的影响是否存在明显的不同,以及这些影响因子对疫情数据影响的交互作用。
表1地理探测器因子探测结果表
因子探测 | 纬度 | 城市等级 | 邻接关系 | 百度迁移量 | GDP | 人口密度 |
q statistic | 0.010106 | 0.172333 | 0.993898 | 0.123235 | 0.997096 | 0.007546 |
p value | 0.701355 | 0.540885 | 0 | 0.815132 | 0 | 0.741177 |
(4) 回归分析
基于不同的分层方案、疫情数据,用SPSS软件探究不同影响因子(纬度、城市等级、邻接关系、百度迁移量、GDP、人口密度)共同作用下对疫情数据间的关系在MAUP效应上有何差异并根据R²判断拟合的模型能解释因变量的变化的百分数。
图6回归分析结果调整后R方统计图
(1)本作品从空间统计角度出发,基于我国市级行政区划和2020.1.20-2020.4.26全国新型冠状病毒病例数据的相关统计指标,分析可变面积单元问题(即MAUP:指面状空间单元的大小和分区方法会对分析结果产生显著的影响)。进一步扩展了MAUP中尺度、粒度、分异效应的含义,分别考虑了空间、时间维度,采用空间自相关、聚类与异常值、地理探测器、多元线性回归等方法探讨三种效应对空间统计分析结果的影响;并对研究结果进行可视化,便于其他学者深入了解MAUP问题及其特点,引发更多人对可变面元问题的思考及应用。
(2)在研究分异效应时,选取多个可能会影响疫情蔓延的因子(如:百度迁徙规模指数、GDP等),使用地理探测器和多元线性回归两种方法,对比探究各因子对结果的单独影响及共同作用,证明分异对空间分析结果的影响是区域研究结果不确定性的主要原因之一,即疫情数据具有分异效应。此外,还有助于更好地确定影响疫情蔓延的主导因子,为传染病的预防提供一定的参考。
(3)结合前述COVID-19疫情数据情况,聚焦于本研究的目的与内容,拓展到尺度-粒度-分异方面,将尺度和粒度又分别与分异结合进行进一步的研究。不但拓展了“综合考虑MAUP效应如何影响疫情数据”的新思路,为疫情数据的深入研究提供一定的理论依据及为控制传染类疾病的蔓延提出一定的参考意见;而且用严谨的科学方法证明了MAUP效应对空间数据的影响是极大的。
(1) 区域化差异研究结论
在研究时间相同时,湖北、广东、四川、浙江四省新增病例空间自相关均呈随机分布,聚类与异常值结果却表现出较大的差异,说明不同省份新增病例数据的空间自相关结果不存在区域化差异,而聚类与异常值结果存在较为明显的区域化差异。(2) 尺度效应研究结论
在时间2020.1.20-2.29内,控制时间相同时,随着空间尺度的扩大(湖北——湖北邻省——全国),新增疫情数据的空间自相关结果聚类频次越来越多,聚类与异常值结果聚类效果越来越明显,说明疫情数据的空间自相关和聚类与异常值结果存在空间尺度效应。对全国的市级累计疫情数据进行研究,随着时间尺度的扩大,全国市级疫情数据区域间空间自相关性强度,呈先上升后下降再趋于平稳的趋势变化,聚类与异常值结果于1月23日前后出现聚类效果变化明显的现象。说明疫情数据的空间自相关性和聚类与异常值结果均存在时间尺度效应。(3) 粒度效应研究结论
当空间粒度由全国市级扩大至全国省级时,新增疫情数据空间自相关结果的分布模式前期均为聚类但聚类效果减弱,后期由聚类转变为随机。聚类与异常值结果变化明显,说明新增疫情数据的空间自相关、聚类与异常值结果均具有空间粒度效应。当时间粒度由三天扩大至七天再至十四天时,区域间空间自相关强度变化趋势发生明显变化,聚类与异常值结果趋势大体一致,但粒度为三天时更能反应数据的变化。说明新增病例数据的空间自相关结果存在明显时间粒度效应;新增病例数据的聚类与异常值结果时间粒度效应不明显。(4) 分异效应研究结论
当研究老年人口比例、邻接关系、省GDP、交通公路密度等七个因子对省级疫情结果的影响时,各因子对全国省级和去掉湖北的全国省级疫情结果影响差异较大,均表现出明显的分异效应。当研究城市等级、百度迁徙指数、GDP等六个因子对市级疫情结果的影响时,各因子对湖北市级、湖北及其邻省市级疫情结果影响差异显著,均表现出明显的分异效应。因此,疫情数据具有分异效应。(5) 尺度-粒度-分异研究结论
随着空间尺度的增大,影响湖北省、湖北邻省、全国市级的主导因子均是邻接关系,第二主导因子为GDP,但随着空间尺度的变大GDP的q值不断减小。生态因子探测的变化比较明显,邻接关系始终与其他因子有显著性差异。在交互作用中,任何两种变量对疫情数据空间分布的交互作用都要大于第一种变量的独自作用。始终是GDP和百度迁移量交互作用对结果影响最大,表现为双因子增强。说明市级新增病例数据的分异存在空间尺度效应。进一步测度六个因子对结果的共同作用,发现,随着空间尺度的增大,六因子对结果的拟合效果降低。对于全国省级累计病例数据的空间分异,随着时间尺度的扩大,主导因子的q值总体呈增大趋势,主导因子对省级累计病例数据的空间分异的解释力增强,说明全国省级累计病例数据的空间分异具有时间尺度效应;生态因子探测的结果都保持不变;交互因子探测的主导交互因子主要是老年人口比例与百度迁移量、人口密度与百度迁移量。控制研究时间相同,当空间粒度由全国市级扩大至全国省级时,在共存因子中,对疫情数据产生影响的因子由邻接关系和GDP变化至邻接关系和百度迁徙,且各因子间的生态探测和交互作用结果也存在显著差异。说明说明全国疫情数据的空间分异具有空间粒度效应。对于全国省级累计病例数据的空间分异,疫情数据分异的影响因子变得粗略,尤其是早期特征逐渐被平均。因此,疫情数据的分异具有时间粒度效应。(6) 建议
①由以上结论可知,疫情数据具有尺度、粒度和分异效应。因此,我们在研究某一问题时一定要充分考虑MAUP效应,选取合适的空间和时间尺度、粒度以及分层方案,以免丢失重要的地理信息,掩盖数据本身的规律和特性。②研究发现,1月23日在研究结果中是一个重要节点,邻接关系始终是影响疫情蔓延的主导因子。由此说明,在面对会人传人的传染性疾病时,采取“封城”等控制传染源扩散、减少人与人接触方法是防控疫情的最有效措施。
以COVID-19疫情数据为例,采用空间自相关、聚类与异常值、地理探测器等方法对MAUP问题的尺度、粒度、分异效应进行深入探究,证明MAUP效应对空间分析结果的影响是区域研究结果不确定性的主要原因之一。科学选择研究的空间和时间尺度、粒度以及分层方案,能够便于我们从疫情数据本身的特性和内在规律出发,更好地控制疾病蔓延。本研究从理论出发,借助地理学中几个常用的简单工具,将研究成果合理充分可视化,最终又归于理论,证明了MAUP问题的重要性及其对地理研究的诸多影响,为传染病防控提供数据支持和理论依据。其中,将尺度、粒度分别与分异结合,探究两两之间的共同作用,打破了以往总是研究单个MAUP问题的思维限制,缔造了MAUP的更多研究可能性,期盼引发学术界关于MAUP问题的广泛思考。