如何练就辨识微博网络水军的火眼金睛?

微博社交成为网络社交的重要方式之一 , 深远地影响着许多网民的思维与行为 , 也是网络舆情发展的重要传播平台 。 网络水军正是趁此机会 , 利用社交网络造势影响舆情判断和走势 。 10月底 , 国家网信办发布新修订的《互联网用户公众账号信息服务管理规定》 , 重点强调打击虚假信息、虚假流量等违法违规行为 , 剑指操纵多个平台账号、生成虚假流量数据、制造虚假舆论热点的幕后黑手 。 在强化互联网内容治理的同时 , 如何通过技术手段加强对网络水军更加精准高效的识别 , 在大数据互联互通时代也理应受到更多重视 。
网络水军用户的四大特征
网络水军被认为是为获得目标收益通过社交媒体传播无意义、虚假、炒作信息的异常主体 , 包括自然人和社交机器人两种类别 , 一般通过发布灌水信息并对相关话题进行炒作、引导来产生有目的的作用 。 网络水军现象已经引起业界的广泛关注 。 学者、研究机构以及舆情从业者开始对各领域水军进行识别研究 。 涉及到两个方面 , 一是网络水军有哪些特点 , 二是怎样自动识别出水军 。 本文基于行为模式、发帖内容、用户关系和环境情况四个维度中的微博用户特点表现 , 总结出辨识与查找水军的特征 。
01 行为模式
微博用户发表的作品拥有一定的阅读量 , 网民在浏览结束后会在其微博中留下评论 , 以便与该用户交流想法、表达自己的观点 , 有些网民会为其点赞或者转发该条微博来表达对此内容的支持 。 于是 , 转发数、评论数、点赞数都是微博构成影响力的基本要点 。
将微博中转发数、评论数、点赞数三个因素根据已有研究结果和逻辑分析 , 可以构成非常重要的特征 , 现列举如下 。
转发微博占比= 转发微博数量/总的发微博数量
非空转发比= 转发者在转发微博中有评论的数量/总的发微博数量
【如何练就辨识微博网络水军的火眼金睛?】用户提及率= 用户所发微博包含的提及量/该用户的发的微博条数
文本话题标签率 = 用户微博内容中包含的话题标签总数/数据集里该用户所发微博数的总数
02 发帖内容
发帖内容包括两个部分 , 一个涉及到微博文中语义理解 , 可能存在诈骗、销售信息的链接 , 或者存在推销、黄色内容等 , 在此不做深入探讨 。 另外则是从发帖内容的 统计特点(非语义理解)构建如下特征 。
文本 URL率= 用户所发微博包含的 URL总数/数据集里该用户微博总数的比值
转发内容重复率= 转发博文内容中有重复的数量/总转发博文数量
非空转发比= 转发者在转发微博中有评论的数量/总的发微博数量
03 用户关系
在微博网络中 , 由于其社交属性 , 对于一个用户来说 , 首先是其关注的对象应该比较分散 , 有明星等陌生人 , 也有熟人 。 正常用户熟人形成的朋友圈内部往往比较紧密 , 其所关注的如亲戚朋友圈、同学同事圈之内的用户 , 往往也会相互关注 。 于是 , 一个正常用户就会存在比较多的社会关联性 , 即与之相关的用户之间的相互关系会较多 。 相反 , 不难发现水军用户社会关联性则简单又集中 , 每个水军账号表面上都是在某个具体舆情事件中 , 一同将舆情方向推向自己的利益方 , 但是本质上每个账户之间却没有正常用户所能够建立起的复杂关系“朋友圈” 。
04 环境情况
水军用户的微博等级一般较低、多数没有开通会员、阳光信用类别也比较低等 。 这些指标对水军的识别也具有参考性 。
如何利用用户关系中的单一特征识别水军
利用微博水军四个维度的特点分析得到的特征 , 根据判断用户是否为水军的特征数量 , 分为 单因素和 多因素判断两种方法 , 本文先着重介绍单因素识别方法 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。