1)所有的作弊都有动机和目的,从目的出发,更容易发现作弊者。
2)真实的用户行为具有一定的规律,不符合规律的就有可能是作弊。
3)反作弊的最终目的是无限压缩作弊行为在正常商业行为中的比例,而非绝对根除,因为绝对根除成本太大。
4)最好的实现方法在于让作弊者成本剧增,无利可图时,作弊团队自然也烟消云散。
区分属于哪一种:
广告投放带来收益,比如拉新,注册,安装 https://my.oschina.net/datacube/blog/788435
用户在网站刷排名
需要了解常见的作弊手段,才能知己知彼:
没有怎么接触过PC端的作弊以及反作弊,从移动端说说常用的作弊方法以及应对策略吧。了解过一般需要ip,cookie,屏幕鼠标捕捉等行为,以及其他
- 假量 也就是下游的一些网盟,Affiliate利用平台的漏洞,制造一些根本不存在的用户,这种量的特征是:量大了之后IP段,手机机型,User-agent等数据会有集中的倾向,用户的n日留存为零;原因就是造假者很难弄到很多当地的IP(PS 我是做海外市场的,国内不太了解)。
应对措施:监测下游的点击IP,UA等重复率;商务测需要经常和上游核对数据;
上面两种情况都可能出现 - “以次充好”的量(含刷量),严格来说这种流量算是处于中间态,是真量,但是在用户留存,用户购买,用户活跃等数据上面来说真的是特别特别烂;
怎么做到的:使用一些激励性质的流量平台去买量,或者使用一些激励手段去刷榜;
应对措施:使用了激励流量的渠道一般而言转化率(CVR)是比较高的,高于正常渠道的转化率;当然他们可以在正常的高质量流量中掺一部分”质次“的量用来维持利润率,这就需要看能否拿到跳转Landing Page的前一跳了;还要随机对于下游渠道的广告投放平台进行审查。 - ”抢归因“的量
当然除了二跳率这些指标外,异常表现还包括广告来源异常;曝光、点击频次异常; 曝光、点击IP/地域集中; 用户平均曝光量、点击量过大;曝光、点击的UA分布异常;数据时段分布异常;到达率、转化率异常等等。
- ip,mac,gid,adid,idfa,imei,mode,os,双卡双待机型等信息
- 用户行为
- 只搜不点:看意图(刷sug、刷排名)
- 大量搜索(冷门query、商业query、医疗query、新闻query等)行为,且无点击视为异常。
- 只点不搜:
- 只有click行为,且无搜索行为视为异常。
- 搜点作弊:
- cookie下的行为很规律,一搜一点或者几搜几点,点击url相同。
- 集中点击:
- 同一时间大量点击不同url或相同url,或者相隔很短时间(2s内)的大量点击。
- 若重复点击、同一秒行为是阿拉丁点击行为,则为正常。
- 转码点击即在转码页的点击,会出现点击同一url的情况,判为正常。
- Query语义不相关
- cookie出现连续搜索、连续主动修改query,搜索query上下文不相关,且query语义上多为商业query和新闻query,刷热词。
- 时间序列的模型,关注流量方面
Big_cookie
一小时日志行为数大于300的cookie
策略计算:
判断line_cnt是否大于300;
即该cookie的行为数(包括点击和展现)是否过多;
判定为spam_cookie.
以cookie为最终判断维度
即若某个小时内一个cookie被判定为spam,则其在此小时内所有行为都将被判为spam。
判断spam cookie的过程分为两个阶段。
第一阶段根据若干规则识别spam query/url/IP/UA/from,第二阶段由这些spam query/url/IP/UA/From株连到spam cookie。
对于行为量过大的cookie,由专门的大cookie策略召回。
此外,反作弊系统还有若干判断无效行为的策略。
主要有预读、回翻、双击、query长度异常、referrer异常、内网IP流量、爬虫等。
这些策略短期将继续放在UDW执行,后续会有重构计划。