本篇文章1760字,读完约4分钟

“只是一个评论搬运工”?一个马蜂窝或者捅出旅游网站的“潜规则”!

近日,公开号“嘀嘀咕咕比比”发布了一份来自深圳数据有限公司的调查报告,称旅游战略网站马蜂巢声称的2100万条“真实点评”中,有1800万条是通过软件从点评网、携程网等竞争网站抄袭的,并贴出大量截图作为证据。

这篇文章发表后,在互联网上引起了关注。“审查欺诈”只是一种个人现象吗?记者通过调查发现,旅游网站有类似评论的情况并不少见,评论处理可能成为旅游网站的一个“潜规则”。

马蜂窝捅了马蜂窝

22日,北京马奥尼康网络技术有限公司回应承认部分评论是虚假的,并清理了涉嫌虚假评论的账户,表示马奥尼康将采取法律措施保护自己的权益不受文章中的歪曲陈述和经核实的有组织攻击,并于22日晚起诉了披露该消息的深圳胡睿数据有限公司侵犯其声誉。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

在胡睿数据发布的报告中,该公司称自己是按照“字字不漏”的标准抄袭的,并发现了7454个抄袭账户,从携程、鳄龙、美团等竞争网站上抄袭了572万条餐馆评论和1221万条酒店评论,占MaHoneycomb官方网站上声称的评论总数的85%,并指出许多评论账户存在自我认同矛盾、时间错位和翻译错误。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

这篇文章发表后,引起了网民的极大关注。一些网民开玩笑说,这起事件是“马蜂窝捅了马蜂窝”。

记者梳理后发现,类似事件在评论和旅游网站上被报道已经不是第一次了。今年7月,小红书应用在微博上发布了一条消息,称大量用户向其举报,他们涉嫌使用小红书用户名账户,成批设置虚假账户,并复制和携带小红书用户发布的原始记录。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

据相关媒体报道,旅游网站携程和“去哪里”也有“审查数据之争”。2018年,由于“去哪里”网站的页面数以万计,携程将“去哪里”告上了法庭。最后,法院确认携程拥有网站内容和资源的版权,“去哪里”是侵权行为。

记者调查:

许多旅游网站都存在“评论处理”现象

根据芮的数据,如果马蜂窝剽窃了1800万条评论,这么大的数据是人力所不能完成的。一些内部人士说,这种行为可以通过使用爬虫软件来完成。

爬虫软件指的是根据特定规则自动抓取互联网信息的程序或脚本。据这位人士称,在互联网行业,使用爬虫软件从其他网站抓取数据,然后将其移动到自己的平台上,这并不是什么新鲜事。

真的是这样吗?爬虫软件抓取数据有多难?记者随机选择了北京的一家酒店,用爬虫软件在不到两分钟的时间里抓取了携程和桐城旅游网站上的100多条评论。通过比较这两个数据,记者发现在酒店的两个网站上有13条相同的评论,而且大部分的评论在两个网站上都显示了相同的日期。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

这种现象在其他平台上也存在吗?记者进一步搜索了酒店在其他平台上的评论数据,发现类似的评论也存在于旅游网站上,如驴妈妈和马蜂窝。103个词的评论中有一个当天就出现在携程、桐城旅游和绿妈妈的网站上,这意味着一些消费者在一天内通过三个平台预订了同一家酒店,并做出了相同的评论,这显然是不合理的。记者发现,酒店有五条关于驴妈妈的评论,他们都可以在其他平台的评论中找到一模一样的“双胞胎兄弟”。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

“评论处理”是网站行为还是个人酒店行为?对此,记者随机抓取了上海两家顶级酒店在不同平台上的点评数据,发现或多或少都有类似的点评。在这些评论中,有相对简单的赞扬、长时间的抱怨和不好的评论,有些评论甚至来自“处理”。值得一提的是,在比较数据中,“每一个字都是正确的”被视为判断相似性的标准,而许多关于“人工洗稿”处理后的评论并没有反映出来。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

一位旅游媒体从业者告诉记者,作为一个"非紧急"行业,旅游网站的流量往往受季节影响。对于普通人来说,如果他们不想给出不好的评论,他们往往不会去网站做评论,这也造成了很多中小型旅游网站的人气不足,在一定程度上也催生了“处理评论”的需求。

新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

根治“数据欺诈”

立法执法必须形成合力

至于“数据欺诈”风暴,马伊夫和胡睿数据公司之间的争议仍无定论,具体证据将在双方开庭时公布。

然而,在业内人士看来,互联网行业的“数据注入”似乎并不出人意料,尤其是对于主要依靠“流量+广告”来实现内容实现的中小网站而言。马蜂窝在最近一次融资中表示,每月有1亿活跃用户,其中85%来自其移动应用。网站用户每月发表超过135,000篇旅游文章。当时,预计2017年个人旅游产品的销售额将超过90亿元人民币(13亿美元)。

标题:新华社调查马蜂窝数据造假:或捅出旅游网站潜规则

地址:http://www.ictaa.cn/hlwxw/20987.html