调查报告:上海十亿人数据泄漏的"中国特色"

2022.07.13
Share on WhatsApp
Share on WhatsApp
调查报告:上海十亿人数据泄漏的"中国特色" 调查报告:上海十亿人数据泄漏的"中国特色"
自由亚洲电台制图

最近,骇客在网站上兜售号称有十亿中国公民的数据库。这个数据库被认为是来自上海市公安局。本台对数据库样本进行了梳理与调查。这场可能是史上最大规模的数据泄露是如何发生的?哪些中国居民的信息被公开?这场泄露又凸显了什么中国特色呢?



想在中国生活  你别无选择”         

在中国住了几十年的美国公民任女士,是在接到记者电话后,才意识到自己是一场可能是中国史上最大规模数据泄漏事件的受害者。

当记者一一跟她核实自上海公安系统流出的个人证件号码、出生年月、出入境资料、家庭住址、警方资料……,任女士先是屏住了呼吸,然后证实这些信息正确。

“是的,我个人资讯是正确的……,这感觉好奇怪,同时又很让人毛骨悚然,好像你所有私人的东西都被摊出来?我还想到我的核酸报告、健康码、一切与我的证件绑定的资料是不是都被公开了?”她试着整理自己震惊的心情后,对记者说,“抱歉我还在消化这个信息……,但是当我看到你给我的东西时,我就在想,我现在能做什么? 我无法更改任何信息,那就是我在中国的身份啊,而是竟然还是从政府部门泄漏的。很恼人、我却无能为力。”

6月30日,一位自称“ChinaDan”的卖家在一个骇客论坛上以英文发帖,称要出售一笔来自上海公安部门,涵盖十亿中国人信息、23 TB的数据库,喊价10个比特币(价值约20万美元)。卖家仅称这个数据库被托管在阿里云上,没有具体说明数据是如何取得的。但他上传了三个资料夹、各约25万样本、总计近75万笔资料,供各方“验货”。

本台浏览这三组样本,其中一个资料夹包含了遍及全国各地的人的姓名、电话、地址等,还有包括“直接放楼下发个信息即可”等疑似送货信息;另一个资料夹里有来自全国的个人身份证信息,包含出生地、年龄、证件号码、性别、一些附有工作或酒店入住的照片、一些标注来自某某“人口办单位”、一些标注重点监控的“七类重点人员”;第三个资料夹则疑似是上海公安局的报警调度台的信息以及出警纪录,出现“报警处理不立案”、“请民警到场处理”、“请民警携带必要的防护装备,并注意自身安全”等字样。

任女士的资料就在第三个资料夹中。

中国是世界上少数实施网络全面实名制的国家之一,批评者认为这加强了威权体制对人民的全面监控。在海量搜集人民数据的同时,此次泄漏案也反映了中国在数据安全保护上的缺陷。

除了中国公民,本台记者在样本中发现了其他至少55位美国公民的资料,他们大多是因为抵达中国后,未在24小时内向当地公安局登记。依照2013年生效的中国《出境入境管理法》规定,所有外国人到中国都需要履行这道手续。

“想在中国生活,你根本别无选择,就是要把这些信息一次又一次地提交出去。” 任女士告诉本台。

一位美国国务院发言人以背景说明方式告诉本台,国务院已注意到上海数据泄漏的报导,但基于隐私考量,不做进一步评论。这位发言人提到,在美国国务院给公民的“赴中国旅游建议”中,特别在“监控与监视”栏目中提醒: 当地安全人员“仔细监控著外国访客”,包含酒店房间、会议室、出租车、电话、数位支付、互联网使用都可能在监控之下。过去曾有美国公民在私人电子讯息中批评中国政府,而被中国安全人员拘留或驱逐的案例。

上海市政府、公安部门和中国国家互联网资讯办公室未回复本台的置评请求。

在泄漏的警情资料中,有许多诈骗、窃盗的案件,有家暴、虐儿、强奸的纪录,也有两起公民因为“翻墙”到推特网站转发或发布涉政、涉领导人讯息而被公安传唤的案例。最早的案子可追溯到1995年,最近的则是2019年。

数据泄漏受害者之一:“我这电话……你们是哪里知道的呀?”

数据泄漏受害者之二:““你是谁?你怎么会有这些(资讯)?”

本台记者随机拨打75万笔样本数据库中的电话号码,进一步进行核实。有的电话已无法拨通,有些证实是本人,但听到是询问数据泄漏后立即挂断。至少十个人向本台核实被泄漏的资料正确,一位女士表示在数据泄漏后的一个礼拜,她每天都接到两三通陌生电话,不堪其扰。

网友也发现透过支付宝查询手机号与实名,可以验证这些数据的真实性。

卖家在论坛上以10比特币为代价,贩售上海公安局的十亿人资料库。(网络截图)
卖家在论坛上以10比特币为代价,贩售上海公安局的十亿人资料库。(网络截图)

数据泄漏的源头  

“这三组数据跟以前(数据泄漏)比较不一样的是警情信息,这组数据我是没有看过的。”香港一家科技公司的创办人黄先生说。

对于上海公安部可能拥有全国快递的个人信息,多位受访的网络安全专家表示不意外。不过,他们都对这场数据泄漏案的细节,保持谨慎的观察态度。

“越想靠这个数据赚钱的人会隐密得越好,而不是告诉全世界我有这个东西,赶紧来抓我吧!”黄先生解释,大多有价值的数据会在更有行规、有技术门槛的暗网(Dark Web)上进行交易,“其实数据泄漏之后,对骇客来说,最有‘价值’的不是去公开卖这个数据,而是在被骇的平台不知道的情况下,用这些数据做一些‘有价值’的违法的事。会拿出来卖,很可能第一层价值已经用光。开始卖之后,又会随着时间的推移,越来越便宜。”

目前各方证据显示,这组十亿人的数据可能在一年多前就已经泄漏了,而且发生泄露的原因可能是一个常见的失误。

美国有线新闻网(CNN)引述网站LeakIX分析,上海警方数据库的资料早在2021年4月已经暴露。LeakIX是一个专门追踪互联网上暴露数据库的网站。网络安全研究公司Security Discovery的创办人迪亚成柯(Bob Diachenko)也在推特上证实,今年4月他们就关注到这组数据暴露在风险中,而且没有设置密码,直到六月数据库遭恶意攻击、破坏、复制,并留下勒索赎金的通知,要求10个比特币。

“这数据在外面流转很长的时间了,现在因为拿到面向很多人的论坛来卖,才引起关注。”  一位熟知中美数据产业工作的从业人员向记者解释,根据线索,一个可能的泄漏源头是:当程序员在使用弹性搜索服务器(ElasticSearch)为上海市公安局搭建大数据搜索系统时,把数据备份在阿里云上,却因失误让数据后门大开,成为可在数据可视化网站Kibana下载或浏览的资讯。

本台查找上海市公安局的公开资料发现,阿里云曾在2019年7月15日以2253万预算,中标上海市公安局“智慧公安综合服务平台的建设项目”,其中包含搭建“智慧公安”综合门户、全要素智能搜索系统。

2020年,在中国最大的程序员技术博客平台CSDN上,曾有一名用户分享如何把数据备分到阿里云上。网友发现这篇文章无意间泄漏了上海公安服务器的访问密钥。

不管是透过程序员泄露密钥,或在设置搜索面板时失误让门户大开,都有相似的前例可循。

2017年,大疆公司发现安全漏洞,最后查出是前员工将代码分享到GitHub 网站的“公有仓库”,造成泄漏。2019年,江苏省公安厅也有一个包含9000万笔资料的数据,被暴露在可公开访问的弹性搜索服务器(ElasticSearch)上。

2020年底,一份来自上海的195万共产党员名单被泄漏。曾对这组数据库作分析研究的数据安全分析机构“Internet 2.0”创办人戴维·罗宾逊(David Robinson)告诉本台,目前看来两者并不相关,只能说可能反映了上海在数据安全方面的控制不佳。

阿里云公司中标上海公安局的网路项目(网络截图)
阿里云公司中标上海公安局的网路项目(网络截图)

中国特色”

对于海量的中国公安部关键数据被暴露在网络上一年多,浏览者来来去去却无人修补、无人上报,几位曾有中国科技公司经验的受访者提到了其中的“中国特色”。

“比如国内有个程序员看到了CSDN上的漏洞,他能不能去告诉公安部门?能不能去告诉阿里?不能!你告诉以后,很有可能被抓、被告,以《破坏计算机信息系统罪》的形式来起诉你。”上述熟知中美数据产业工作的从业人员提到,2016年,“乌云网高管被抓事件”,对中国的“白帽骇客”生态有很大的冲击。“ 相当于看到老人摔倒,现在我不敢扶的,扶了我会倒楣的,没有人敢做这事了。”这位从业人员出于安全考虑不愿具名受访。

乌云网是一家2010年由民间创办,为了让中国企业更重视网络安全的抓漏洞平台。“白帽骇客”(或又称“道德骇客”)指的是以骇客的立场去排查安全漏洞,以维护网络安全的电脑安全专家。

2016年,乌云网被关闭、多位高管被带走的事件引起互联网界的恐慌。当局未做出解释,但一种说法是可能与该平台上的骇客揭漏了中国统战部的系统漏洞有关。当时评论分析,这种即使是以公共利益为出发点的民间骇客活动,也让中国当局感到不安。

“我如果在系统里发现一个漏洞,在其他国家我可能联系软件公司、开发者或机构……。国内不能这样搞,你要先提交网路安全管理局,先上交给国家,但他怎么利用,你不知道的。”在中国公司担任程序员的马先生说。

“这些漏洞可能有价值,能在对方不知道的情况下,去黑别人的网站。利用这个时间差,确保国内在(网路)进攻这方面的优势。”上述匿名从业人员解释。

在网络安全成为国家战略的背景下,中国正在完善立法,加强对网路世界的控制。根据中国工信部、国家网信办、公安部2021年7月联合发布的《网络产品安全漏洞管理规定》,发现安全漏洞时,必须在2日内向工信部分享信息。

2021年12月,中国工信部就以“发现网络安全漏洞,却不及时向电信主管部门报告”为由,处罚阿里云公司。当时,阿里云安全团队在发现阿帕奇(Apache)的系统漏洞后,先通知了总部在美国的阿帕奇软件基金会。

在中国确保数据优势上,国家网信办在7月7日刚公布《数据出境安全评估办法》。未来,若有企业需传输超过 10 万人的个人资讯,以及传输超过 1 万人的指纹和其他敏感个人数据,必须接受国家安全审查。

这些企业必须提交资料给政府部门,包括传输数据的目的、正采取的安全措施及目的地国家的法律和法规,调查人员再依据资讯泄露的可能性进行审查。

泄漏的数据库样本中,记录公安局重点监控的"七类重点人口"(网络截图)
泄漏的数据库样本中,记录公安局重点监控的"七类重点人口"(网络截图)

窥探“警察国家”的窗口

在第一时间,中国当局用惯用的手法处理这次的上海数据泄漏案:全面删帖、控评。

在中国社交媒体微博和微信上,所有提及此次数据泄漏的内容都被审查。 几篇关于此次事件的自媒体报导也快速被删除。

“大多数的中国人都在问相似的问题,也是被审查删除的最多的是: 我的数据被泄漏了吗?他们有多少关于我的数据?为什么我的个人资讯没有被安全的存放?”总部设在中国的网络审查观察网站GreatFire.org共同创办人史密斯(Charlie Smith)告诉本台。这个网站自2011年开始追踪在中国社交媒体平台被审查的帖子,基于安全考量,史密斯是他的化名。

这些个人信息被泄露对这些当事人来说当然是件坏事,但是一些社会科学研究者则在这些样本数据中,得到了一个窥视中国的独特窗口。

美国威斯康辛大学麦迪逊校区研究员、专研中国人口统计的易富贤把其中一组25万的全国人口的数据作分析,发现样本的分散度大、随机性强,几乎涵盖中国每个县,姓氏分布比例也与2010人口普查结果非常一致。

“说明抽样的质量很高,整体来说是一个可靠的人口数据,”易富贤告诉本台,他用这组数据得出的结果与他先前的预测高度雷同: 中国人口危机的严重程度超乎官方公布的数据。

这些样本数据也提供了警察国家运作的一些线索。记者在其中一组资料夹内发现166人被标记为“公安部七类重点人员”,这包含重点上访人员或涉稳人员。在上海的警情数据中,与强奸案有关的至少有150件,与家暴有关的则有超过300件,一些详细记录了暴力的细节。

其中一个报警人称因“生育下一代问题”遭公公及丈夫殴打,一位三岁的女童遭爷爷性侵,一位到北京上访的上海居民被带回派出所接受调查,还有一位市民因反应家中违章搭建未获得相关部门处理,扬言要到市政府喝农药自杀。

一位微博网友评论问道,“这挡案里的每个案件,随便一个都是能上热搜的,这还只是报警处理的,真实的情况有多严重?”

 “这个事件最令人担忧之处在于,他们在不考虑隐私的情况下公布这些个人可识别资讯(PII)。多数时候这类数据公开,可能会删除或屏蔽一些栏目。” 数据安全分析机构“Internet 2.0”创办人戴维·罗宾逊(David Robinson)对这些涉及个人甚至未成年人隐私的犯罪信息缺乏保护感到非常吃惊。

“信息泄露,人人裸奔,中国互联网美丽的一天。”一位中国用户在微博上评论道。


(记者: 唐家婕     责编: 申铧    网编:  洪伟)

添加评论

您可以通过填写以下表单发表评论,使用纯文本格式。 评论将被审核。