注册

环信推反垃圾服务,八大技术为用户保驾护航

那些年,用户被虚假广告塞的坛满钵满;那些年,网民被欺诈信息骗的倾家荡产;那些年,色情图片搞得社区难以正常发展;那些年,反动信息让平台面临关停的风险。据《中国网民权益保护调查报告(2015)》显示,2015年网民因个人信息泄露、垃圾信息、诈骗信息等现象,总体损失高达805亿元。同时,垃圾信息也极大影响互联网产品用户体验,如果不加以控制,只能眼睁睁地看着活跃度下降用户不断流失。


16-15122111201L10.jpg


诈骗垃圾消息示例
 
 互联网企业因此面临着各方面巨大的压力,为此不得不投入大量的资源。大型互联网公司都有专门的反垃圾研发团队,人数动辄数人甚至数十人。但大多数中小型互联网创业公司资源有限,很难专门建立自己的反垃圾团队。在美国,已经有多家创业公司以云服务或其他形式提供反垃圾服务。而在中国,反垃圾市场缺口巨大,但目前还没有第三方的专业反垃圾服务提供商。


16-151221112029239.jpg


广告、色情垃圾消息示例
 
为了维护平台以及网民的合法权益不再遭受垃圾信息的侵害,作为全球最大的即时通讯云PaaS平台,环信率先推出了反垃圾服务
 
 
一,反垃圾服务“Anti-spam”面临六大挑战

反垃圾服务“Anti-spam”是一项长期并且艰巨的工作,面临以下六大挑战:
1)1:n,一个anti-spam团队要面临看不见的千千万万的spammer(人或者机器);
2)spammer利益丰厚,已经形成完整的地下黑色产业链;
3)spam的成本越来越低,打码网站(第三世界打码平台),万能的淘宝(IP代理库,手机黑卡,马甲账号)等;
4)spam质量越来越高,软文与正常用户的文章差异越来越少;
5)anti-spam是拉锯战,学术界和工业界多采用机器学习的方法进行,但只要产品有流量,spammer会坚持不懈地研究策略和规则来绕开设定的屏障。anti-spam与其说是machine learning,不如说是adversarial learning;
6)anti-spam在大多数公司都是一个黑盒,为了保护自己,核心技术很少会拿出来公开交流。


二,环信反垃圾“anti-spam”服务八大技术让垃圾消息无所遁形

    环信作为国内即时通讯云行业的开创者,有着连接人与人,连接人与商业的愿景。不仅致力于为用户提供高稳定高可靠的底层消息服务,更致力于帮助用户不断优化产品打造更好的用户体验,从而实现双赢。在反垃圾服务方面,环信anti-spam团队将通过以下技术力图识别恶意机器程序,将用户spam控制在可接受的范围内。


16-151221112110Z5.jpg


环信反垃圾服务架构图
 
1、关键词过滤系统,主要用来过滤非法政治言论以及部分色情信息;
2、基于行为分析的spammer识别系统,借助互联网用户行为的特征进行spammer识别;
3、恶意内容样本自学习系统。基于内容的spammer识别系统,通过训练,指针对用户的内容数据做判断,从语义的角度分析spam的类别;
4、实时策略部署,紧急帮助用户拦截临时爆发的spam;
5、用户产品指导等(注册马甲拦截,活动刷单等); 

    在上述anti-spam过程中,环信将会对用户的用户ID做匿名处理,充分保护用户隐私。并且将使用高效、准确的机器学习模型进行智能识别。

    未来,环信还将部署以下三大技术: 1、消息恶意代码检测,xss等潜在的恶意攻击;2、恶意URL检测,钓鱼网站等虚假URL检测; 3、语音,图片,视频等spammer智能识别系统;


三,环信反垃圾“anti-spam”增值服务流程简介:

1、环信反垃圾服务属于增值服务,将面向所有互联网企业,同时将优先向环信即时通讯云和环信移动客服老用户开放。
2、企业可以联系环信商务申请开通反垃圾服务。
3、环信反垃圾团队将跟企业沟通,了解用户垃圾消息的定义,商定垃圾消息的处理流程。
4、对企业的数据匿名处理,训练模型,上线服务。
5、环信将不断改进模型,提高准确率和召回率,同时帮助企业应对临时事件。

    截至12月份,已经有数十家环信老用户试用开通了环信反垃圾服务。某知名女性社交App在申请试用环信反垃圾服务以后,环信选择其数据使用环信行为识别系统进行识别,发现该App目前的垃圾消息占比高达40%,其中,垃圾消息主要分为非法广告和虚假兼职两类,比例为9:1,极度影响用户体验。

    通过环信行为检测系统,垃圾消息监测准确率高达99%,垃圾消息召回率高达82%。该社交产品负责人表示:“环信反垃圾服务上线后用户活跃度获得了明显提升,以后再也不用为各种色情、政治类消息提心吊胆了。”

    环信反垃圾服务将于近期正式对外开放申请,具体请联系环信商务或者关注环信官网(http://www.easemob.com/)更新。

    名词解释:召回率,是机器学习的评判指标之一。举个例子,现在某App有1000条消息,其中300条是垃圾消息,通过系统识别出了240条我们“算法认定”的垃圾消息,经过人工鉴定,这240条垃圾消息就是样本中的垃圾消息,那么算法的召回率是240/300=80%,算法准确率是100%。因为算法是一个学习的过程,所以会漏掉一些垃圾消息用作学习成本。
 

0 个评论

要回复文章请先登录注册