在过去的几年里,人们从社交媒体、地理定位系统、无人机和卫星的航拍图像等渠道获取、存储和共享了大量的数字数据,这为研究人员研究信息和解密我们的世界提供了许多新的途径。在瑞士,联邦统计局(FSO)对大数据革命及其为社会提供预测性统计数据的可能性产生了兴趣。
普查和调查等传统方法仍然是在市、州和国家各级编制社会经济指标的基准。但是这些方法现在可以用次级的,主要是预先存在的数据来补充,这些数据来源于手机订阅和信用卡。根据FSO的2017年数据创新战略,“数据创新的目标是提高统计产品的质量、范围和成本效率,杏耀测速并减少家庭和企业的响应负担。”
匿名数据
在此背景下,EPFL城市系统人类-环境关系实验室(HERUS)的一组科学家对保险公司持有的数据的新用途进行了突破性的研究。该实验室的主要合作伙伴公司La Mobilière提供了来自数十万投保人的匿名数据。这些数据包括年龄、居住邮政编码、拥有汽车和住房以及就业状况等因素。
“我们想知道是否可以使用这些数据来预测具体的社会经济指标——这些指标可以让我们更好地了解瑞士城市地区的质量。保险公司持有的一大优势的数据——只要他们愿意分享它是便宜的,因为他们已经存在,和年度调查可以在没有额外的成本,进行“Emanuele马萨罗说,他是该研究的第一作者,发表在《PLOS One》杂志3月3日。
研究小组利用数据挖掘技术提取相关信息,并将其汇总到170个瑞士人口最多的城镇。他们总共获得了近60万份资料,每一份资料都有一个唯一的代码来识别。“La Mobilière的数据集非常完整;它包含了广泛的信息,使我们能够将30多个变量考虑在内,我们主要使用这些变量来选择那些最符合每个社会经济指标的变量,”Lorenzo Donadio说,他是EPFL环境科学与工程硕士的学生,也是该研究的第一作者。
空间回归模型
科学家们开发了一个空间回归模型来精确预测六个类别的12个变量:人口、交通、工作、空间和地区、住房和经济。“当然,我们的预测不能取代官方的人口普查,
杏耀 ,但它们可以作为每年的路标。我们还想表明,保险公司的数据集包含了大量的社会相关信息——超出了他们用于市场营销和市场研究的信息——保险公司应该考虑与研究人员更密切地合作,”Massaro说。
该小组的统计模型仅为研究目的而开发,并没有实际应用。它可以用来帮助指导政策制定者,杏耀登录地址但仍然需要定期的人口普查数据。La Mobilière的数据缺少某些信息,比如18岁以下的年轻人,但仍然代表了很大一部分人口。“我们的模型可以被城市决策者和政府统计部门使用,他们可以把这类信息纳入他们的现代化努力中。”保险商的数据集是高度细粒度的,因为它们包含关于客户的非常具体的信息。