去芜存菁 去芜存菁:小议交际媒体剖析学中的数据质量问题

来源:旅游学刊 2022年06月18日 16:50

向征+于思

近十余年来,交际媒体的开展一日千里,并经过不同的途径,以不同的方式,为咱们知道、剖析和处理许多社会经济问题供给了海量、丰厚的数据,交际媒体剖析学(social media analytics)由此应运而生。交际媒体剖析学首要经过收集各种类型的交际媒体数据,运用文本剖析、数据发掘、机器学习及计量计算等办法,来发现、描绘并解说根据传统数据和办法不易发现和知道的规则。交际媒体剖析学在各个范畴取得了长足的发展,旅行办理也不破例。近年来运用交际媒体数据的研讨纷繁出现,包含旅行及酒店业各范畴,触及游客满意度、旅行意图地形象、酒店收入成绩剖析等问题,不胜枚举。其研讨目标、数据运用和剖析办法可谓千姿百态,为旅行办理供给了史无前例的幻想空间。

与实验法、问卷调查法等传统研讨办法比较,交际媒体剖析学的数据来历和构成不是由研讨者预先规划而生成的,而是运用现成的二手数据。用Agarwal和Dhar的话来说,交际媒体数据总是“不完美的”。形象地说,交际媒體剖析学在办法论上是一个立杆见影的进程,即经过不完美的数据找到尽或许挨近实际的答案。现在,交际媒体剖析学尚处在初级阶段,近年来,Ruths、Pfeffer和Tufekci等社会科学范畴的研讨人员对这种以数据为根底的新研讨范式提出了越来越多的批判,特别是对数据来历及数据自身的牢靠性和合法性存有质疑。鉴于此,本文旨在介绍交际媒体作为研讨数据的一些常见的质量问题,并针对性地讨论旅行交际媒体研讨中存在的潜在问题和应战。

交际媒体数据质量的不完美是指什么?所谓完美和不完美,对研讨者来说是一个相对的概念。假如研讨的意图是为了知道交际媒体自身的根本特征和规则,则交际媒体数据的不完美和构成这些不完美的原因正好为这些问题的讨论供给了“完美的”调查。可是,假如研讨的意图是为了知道或发现数据中可以代表特定人群的根本特征和规则,则不完美的数据会对研讨的合法性构成影响。比方,用“谷歌趋势”的数据猜测人群中流感迸发的不精确,就是因为过高估计数据中非相关的查找关键词导致的。

那么,交际媒体数据质量的不完美是什么原因构成的呢?体现在哪些方面?要知道这个问题,有必要了解交际媒体作为信息渠道的实质。

首要,虽然简直一切的交际媒体都能为顾客供给值得信任、可以同享的社会常识,可是每个交际媒体渠道自身都是反映不同社会、文明和经济价值取向的杂乱技能体系,从方式和内容上讲可谓千姿百态。例如,作为微博渠道,Twitter在信息的生成传达和虚拟交际网络的动态演化上有其独有特征;在旅行在线渠道中,TripAdvisor归于敞开式的网站,而Expedia只对在该网站有购买阅历的顾客敞开网评功用。从这个含义上讲,不同交际媒体往往代表不同的顾客商场和特定的商业模式,其数据的代表性很大程度上取决于收集数据的渠道自身的特征。因而可以说,交际媒体数据质量有潜在的渠道成见。

其次,交际媒体个人用户也是构成数据不完美的重要原因。以网评为例,最近Streitfeld在《纽约时报》的一篇文章引用了一位谈论人的话,以为产品的网评和打分往往是由“处于网络底层的粉丝、仇视者和操纵者”奉献的,因而咱们不应该对它们有过高的希望。Mkono和Tribe在Journal of Travel Research的一篇文章中谈到,旅行产品在线谈论网站的用户不只仅是谈论人,并且往往扮演了其他重要的人物,比方活动家、社会精英,乃至恶搞者。从这个含义上讲,参加交际媒体的人群自身就具有“挑选性成见”。Stephens-Davidowitz的研讨发现,在与Facebook相似的交际网站上,人们更倾向于共享“成功、赋有、有吸引力、清闲、聪明以及高兴”的阅历,可是这并不可以代表大多数人的日子阅历。此外,交际媒体数据尤其是在线网评数据不可避免地存在一些过错信息,比方拼写或输入过错。因而可以说,交际媒体数据或许存在各式各样的用户成见。

第三,除了个人用户外,交际媒体的运用者还包含以营销为首要意图的商家,因而这些数据是否都是由真实的顾客生成值得置疑。例如,Anderson和Simester发现在某零售商网站上,很大一部分网评是由彻底没有购买该产品记载的“用户”提交,因而揣度这些所谓的网评其实是商家雇佣的“水军”所为。一起,这些网评往往偏于负面,在言语特征上与虚伪广告相似。已有不少研讨承认,某些商业利益会导致网评中参杂必定数量的废物信息,乃至是彻底不实的信息。

由此可见,交际媒体数据是渠道、个人用户和商家互动的成果。在更大范围内讲,交际媒体还受各种社会、政治、经济和文明等大环境的影响。例如,交际网络实名制的施行会对群体行为构成必定的影响。这些要素都会影响数据的真实性、可信性和代表性。笔者以为,现在旅行交际媒体剖析研讨中,首要存在以下数据质量相关问题:

· 数据收集自单一数据源。例如,在根据网评数据进行相关研讨的文献中,TripAdvisor是首选。因为存在渠道成见的或许,这些研讨发现和定论只能算是许多的待选处理方案之一,其普适性值得商讨。

· 数据抽样缺少体系化的办法,对数据自身所代表的人群特征也缺少满足的知道。当时作业中的数据抽样往往选用了一些经历规律,比方在挑选网评数据时用字数约束作为数据质量的过滤器,而字数长度作为标准是没有牢靠根据的。更有甚者,许多研讨对数据底子没有运用任何根本抽样办法,仅仅选用一切可以运用或得到的数据。

· 对可疑数据缺少有用的知道手法和可行的辨别办法。例如,在线谈论数据中存在一些人为过错,一起还有灌水数据,乃至虚伪数据,现在还没有行之有用的办法对这些可疑数据进行辨认和除掉。

值得一提的是,近年来交际媒体数据质量问题已逐步引起旅行界学者的重视。在知道交际媒体渠道成见方面,Mellinas等人发现预定网站Booking.com在显现用户打分刻度时,或许会误导用户;Xiang等人在Tourism Management的一篇文章中,对美国三个最具代表含义的旅行在线谈论网站(TripAdvisor,Expedia和Yelp)进行了比照剖析,发现这三个网站的酒店网评在一些重要数据特征上存在显着差异。在知道网评相关的情感和语义等重要丈量指数的研讨中,学者们也开端意识到数据质量问题,Park和Nicolau用Yelp的餐饮业网评数据进行剖析研讨,发现网评情感和用户打分存在不对称联系,这个发现在Xiang等人的研讨中也得到了部分验证。在辨别数据噪音方面,Schuckert、Liu和Law用网评中的用户总打分和分项打分之间的不一致性作为可疑网评的辨别手法。最近,Xiang等人的另一篇文章发现,当TripAdvisor在要求网评人填写旅行意图时,用户往往供给不精确的信息,构成数据噪音,由此,他们开发了一套根据高质量网评的排序算法,来有用除掉噪音。这些研讨标明,在交际媒体剖析学的研讨中,有意识、体系化地进行数据收集、预处理和抽样,对研讨定论的合法性至关重要。

知道到交际媒体渠道的实质,咱们就可以有意识、有针对性地知道和处理交际媒体剖析进程中或许存在的数据质量问题。当然,现在这些研讨仅仅是一些探索性的作业,关于旅行相关的交际媒体研讨的本体论和办法论根底,依然有许多值得深入讨论的课题。比方,使用网评和博客来知道旅行意图地形象好像正在成为一个趋势,可是,终究什么样的数据可以用来描绘意图地形象,这也是个合法性的问题。

立杆见影,去芜存菁。笔者以为,对交际媒体数据质量的研讨,不只可以给旅行办理供给牢靠的办法论根底,并且在假信息、假新闻众多的今日,更具有火急的实际含义。

(榜首作者系美国弗吉尼亚理工大学酒店和旅行办理系副教授,博士生导师,北京联合大学客座教授;第二作者系北京联合大学副教授,通讯作者;收稿日期:2017-08-11)endprint

最新文章