大家还记得之前哈佛用一纸研究论文和假数据往中国武汉身上泼脏水的事儿吗?
当时被爆造假后,哈佛这几十年来在中国人民心里的地位也“险些”跌落神坛,
名校拥有深厚的底蕴和资源不假,但名校在关键时候的论文数据也会造假。
哈佛大学研究小组上个月发表的研究报告称,通过对武汉医院停车场的卫星图像和使用关键词“腹泻”的互联网搜索结果的分析,去年秋天之前,疫情已经在武汉蔓延,武汉被认为是疫情爆发的源头。由于这篇论文往中国泼的脏水实在是太脏了,基本上可以到睁眼说瞎话的程度,
通过百度搜索引擎和卫星停车场数据图强行说武汉8月就有了疫情。用所谓的“2019年秋季在百度上检索咳嗽和腹泻的武汉人增加”作为核心证据,其图片给出的时间范围为2018年5月(包括之前)至2020年5月。用一个图表,所有人都能使用的“百度指数”功能在百度上搜索出来的关键词作为学术论文的研究“核心证据”,同时,细心的网友发现,这个所谓的“核心证据”更是缺乏事实的支持。哈佛大学医学院论文主张在2019年9月开始出现对于咳嗽和腹泻这两个关键词的检索迅速增加,然而事实上,2017年,2018年同期相同关键词的搜索量也出现过高峰。这篇论文虽然看似可笑但已经发表并造成了严重的反面影响,于是一帮中国研究人员聚在一起,称中国武汉8月就有新冠疫情的哈佛论文中的数据进行了重新分析。这篇打假文章的第一要点,指出论文作者收集到的数据数量少,并且也没有什么参考价值。
“打假论文”指出,哈佛大学发表的论文研究计算了武汉市6家医院停车场的车辆数量,在2018年1月至2020年5月的29个月里,哈佛大学的研究只收集到了140个与车辆数量相关的数据点。这意味着每家医院平均每个月只有不到1个数据点,其中又有30个数据点集中在最后两个月。而6家医院之一的“湖北省妇幼保健院”足足占据了24个数据点,但根据报道该医疗机构并没有针对成人肺部问题的科室。
湖北省妇幼保健院停车场数量变化图源:ABC News2. 哈佛大学的研究使用了一个所谓LOESS的方法
该方法从分散的车辆计数数据中得到一条光滑的曲线,并观察到,结果曲线在去年8月有所增加。但是,根据最新数据分析,哈佛研究团队在当初似乎有意调整了这些参数,使曲线与他们的主张一致。如果改变span参数,那么平滑的曲线将会变得非常不同。如图a所示,哈佛论文中“span=40%”,span越大曲线越平滑,同时也会丢失更多的信息。
作者们将span=30%赋值得到的数据图是图c,2019年就出现了两个新的高峰。同样的,要是将span=80%(图d),那么基本上就没有什么峰值出现。选择span=40%,抹去了前面的几个高峰值,而正好只保留了2019年最后的一个高峰。很明显的,哈佛论文的作者选择了符合自己论述的span=40%来作为研究中的数据。这一波分析过程的公开,坐实了哈佛大学在论文研究过程中为了得到想要的数据支撑自己的结论而可以更改研究数据的事实。“开局一张图,过程全靠编”的做法严重违背了学术诚信。同样用事实说话的“新闻”也讲究对事实和真相的探究,下面的一张对比图也同样可以解释这次哈佛大学的学术造假“泼脏水”事件:记者通过拍摄照片的角度,将法国骚乱“纵火”放大化。
同一件事,选取什么样的角度,什么样的数据,结果天差地别。哈佛大学这篇论文的研究手段与此大同小异,同样是故意选择了有利于自己论点的“角度”(数据),从而得到自己理想的研究结果。如果说哈佛医学院之前用“百度搜索引擎”的关键字作为该论文研究的重要数据是“蠢”,那这次研究人员最新发现的哈佛论文涉嫌“数据造假”,就是坏到了极点。哈佛大学医学院的这篇“论文”漏洞百出,研究水平算得上学术界“故事会”之流。
说实话这篇论文是经不起推敲的,连同行评审推广(Peer Review)都没有的论文,大概率学术界也真的只把它当作一个笑话来看。就因为这篇论文指责中国武汉在八月初就有新冠疫情发生,于是在发表之初,就坐上“顺风车”被别有用心的美国大做文章,争相报道,迅速传播。三人成虎,这篇不实论文在造成的恶劣影响力不言而喻。
所幸中国的研究人员的这篇批评论文得到了学术界“打假专家”的支持,并且进入了哈佛官方学术平台DASH这篇哈佛论文也从同行评议的学术期刊中撤稿,状态也便成为了为作者自有。
素材来源:美国留学那点事,Daily Mail, 北美留学生日报