本篇文章1940字,读完约5分钟
“旅行前,先去马蜂窝。”2018年世界杯期间,一则广告席卷了互联网。在北京马蜂窝网络技术有限公司(以下简称马蜂窝)收获了一波又一波的流量之后的三个月,这个凭借用户创造内容(ugc)逐渐成长起来的在线旅游平台,由数据有限公司(深圳市数据有限公司)团队推出。
10月21日晚,来自媒体的“窃窃私语”中刊登了“马蜂巢估计价值175亿元,实际上是一个由丧尸和水军组成的鬼城?”如承诺的那样,发布了第二篇关于马蜂窝淹没丧尸和水军的报道文章。随着舆论的发酵,马蜂窝22日上午发表了一份公开声明,称马蜂窝将采取法律措施保护自己的权益,针对这篇文章中的歪曲言论和经查证属实的有组织攻击。10月22日晚,马蜂巢起诉深圳市数据有限公司、丁侵犯名誉。
值得注意的是,马蜂窝的“数据欺诈”有了新的进展。10月22日下午6时49分左右,马蜂窝里爆出“数据造假”消息的人,发表了作者“紫泉”的朋友圈,后者贴出了诉讼服务通知,并附上了一篇“今夜第三战”的文章。
2014年4月,马蜂窝首席执行官陈刚曾在微博上公开炮轰,并通过虚假评论进行造假,称的刷屏行为动摇了行业诚信的基础。现在,马蜂窝被“捅”了。怎么说来着?
马困在“抄袭门”的蜂巢
10月21日,自媒体《低语比比》发表文章称,价值175亿英镑的“马蜂窝”实际上是一个由僵尸和水军组成的鬼城?根据数据小组提供的数据报告,作者紫泉在文章中说,在《马蜂窝》的2100万篇“真实评论”中,有1800万篇是由机器人从竞争对手的平台上抄袭来的。
文章一发表,公众就收到了马蜂窝关于“损害商业信誉”的投诉。在第二天的推文中,玉泉表示,不仅如此,“文章发出8小时后提到的账户被从搜索栏中屏蔽,评论内容也被从个人主页上删除。”
10月22日,数据组通过电子邮件向记者发送了一份25页的关于马蜂窝的数据报告,显示马蜂窝涉嫌存在处理评论、游记掺水、抄袭问答等现象。
根据胡睿数据团队的报告,经过对《马蜂窝》的ugc和用户数据的初步探索以及与竞争产品的比较,发现包括官方账号在内的许多马蜂窝用户抄袭了公众评论网数百名用户的评论和携程、鳄龙、阿戈达、yelp等知名网站的大量用户内容,甚至在官方获奖活动中获得一等奖。
10月22日下午,记者通过“悄悄话比比”公共账号联系到自媒体作者子全,子全向记者透露,文章的材料来源于数据对《马蜂窝》用户评论等数据的分析报告。谈及撰写和发表《马蜂窝》一文的原因,《玉泉》向记者透露,当初,通过公开的数据联系了他。"首先确定兴趣,然后签署保密协议,然后看报告."《子全》说。同日,马蜂窝的相关负责人告诉记者,“目前正在采取法律程序。”对此,《紫泉》称,截至当时,只有马蜂窝的投诉,关于这两篇文章的公开报道被看到,没有公司联系他。
10月22日晚,马蜂窝因涉嫌举报马蜂窝数据造假,向北京市朝阳区人民法院提起诉讼,称胡睿数据侵犯名誉权,现已立案。
马蜂窝否认85%的审查欺诈
根据上述报告,经过数据分析,胡睿数据团队发现Mahive上有7,454个抄袭账户,共有572万个餐厅评论和1,221万个酒店评论是从竞争网站上抄袭的,占官方网站声称的评论总数的85%。
剔除“抄袭账户”后,胡睿数据团队从所有剩余账户中选取了15,000个最活跃的账户,发现用户回答问题和评论的行为时间高度一致,发布时间与其他同类评论网站有很大不同,大多数在工作时间(周一至周五10: 00至12: 00和14: 00至17: 00)更活跃。
胡睿的数据团队还发现,一批在旅游指南中植入广告的商家,通过“编号”和“洗稿”等抄袭、拼接的方式,批量制作包含广告内容的游记、问答和回复,然后用大量的小号和马甲手工放在上面,从而实现了在平台上低成本为亿万用户做广告的目的。
胡睿的数据团队“捅”了马蜂窝,一时间舆论哗然。22日上午7点45分,马蜂窝在微博上发表声明称,游记和策略占78.91%,热门话题占7.92%,问答占10.26%。这些数据背后是用户的真实感受和记忆,也是马蜂窝内容的真正价值。
马蜂窝进一步表示,评论内容仅占马蜂窝总数据量的2.91%,涉嫌虚假评论的账号数量占用户总数的比例很小。马蜂窝对这些账户进行了清理,认为“媒体文章中描述的马蜂窝用户数量与事实和第三方机构的数据严重不符”。与此同时,马蜂窝一直在严厉打击游记和问答中的非法广告,平均每周处理2.6万个非法广告,查封1.5万个非法账户。
22日,记者通过电子邮件向胡睿数据团队询问了有关用于报告数据挖掘的工具的科学和准确分析,但截至发稿时,尚未收到任何回复。
数据爬虫在行业中很常见?
2018年10月21日,马蜂窝旅游网查看了旅游笔记、策略、热点(旅游故事)问答、评论等数据。,并调查了可疑的虚假信息。
标题:乎睿数据爆料马蜂窝评论造假 遭马蜂窝起诉名誉侵权
地址:http://www.ictaa.cn/hlwxw/16703.html