环信推反垃圾服务，八大技术为用户保驾护航

那些年，用户被虚假广告塞的坛满钵满；那些年，网民被欺诈信息骗的倾家荡产；那些年，色情图片搞得社区难以正常发展；那些年，反动信息让平台面临关停的风险。据《中国网民权益保护调查报告(2015)》显示，2015年网民因个人信息泄露、垃圾信息、诈骗信息等现象，总体损失高达805亿元。同时，垃圾信息也极大影响互联网产品用户体验，如果不加以控制，只能眼睁睁地看着活跃度下降用户不断流失。

诈骗垃圾消息示例

互联网企业因此面临着各方面巨大的压力，为此不得不投入大量的资源。大型互联网公司都有专门的反垃圾研发团队，人数动辄数人甚至数十人。但大多数中小型互联网创业公司资源有限，很难专门建立自己的反垃圾团队。在美国，已经有多家创业公司以云服务或其他形式提供反垃圾服务。而在中国，反垃圾市场缺口巨大，但目前还没有第三方的专业反垃圾服务提供商。

广告、色情垃圾消息示例

为了维护平台以及网民的合法权益不再遭受垃圾信息的侵害，作为全球最大的即时通讯云PaaS平台，环信率先推出了反垃圾服务

一，反垃圾服务“Anti-spam”面临六大挑战

反垃圾服务“Anti-spam”是一项长期并且艰巨的工作，面临以下六大挑战：
1)1：n，一个anti-spam团队要面临看不见的千千万万的spammer(人或者机器);
2)spammer利益丰厚，已经形成完整的地下黑色产业链;
3)spam的成本越来越低，打码网站(第三世界打码平台)，万能的淘宝(IP代理库，手机黑卡，马甲账号)等;
4)spam质量越来越高，软文与正常用户的文章差异越来越少;
5)anti-spam是拉锯战，学术界和工业界多采用机器学习的方法进行，但只要产品有流量，spammer会坚持不懈地研究策略和规则来绕开设定的屏障。anti-spam与其说是machine learning，不如说是adversarial learning;
6)anti-spam在大多数公司都是一个黑盒，为了保护自己，核心技术很少会拿出来公开交流。

二，环信反垃圾“anti-spam”服务八大技术让垃圾消息无所遁形

环信作为国内即时通讯云行业的开创者，有着连接人与人，连接人与商业的愿景。不仅致力于为用户提供高稳定高可靠的底层消息服务，更致力于帮助用户不断优化产品打造更好的用户体验，从而实现双赢。在反垃圾服务方面，环信anti-spam团队将通过以下技术力图识别恶意机器程序，将用户spam控制在可接受的范围内。

环信反垃圾服务架构图

1、关键词过滤系统，主要用来过滤非法政治言论以及部分色情信息;
2、基于行为分析的spammer识别系统，借助互联网用户行为的特征进行spammer识别;
3、恶意内容样本自学习系统。基于内容的spammer识别系统，通过训练，指针对用户的内容数据做判断，从语义的角度分析spam的类别;
4、实时策略部署，紧急帮助用户拦截临时爆发的spam;
5、用户产品指导等(注册马甲拦截，活动刷单等);

在上述anti-spam过程中，环信将会对用户的用户ID做匿名处理，充分保护用户隐私。并且将使用高效、准确的机器学习模型进行智能识别。

未来，环信还将部署以下三大技术：　1、消息恶意代码检测，xss等潜在的恶意攻击;2、恶意URL检测，钓鱼网站等虚假URL检测; 3、语音，图片，视频等spammer智能识别系统;

三，环信反垃圾“anti-spam”增值服务流程简介：

1、环信反垃圾服务属于增值服务，将面向所有互联网企业，同时将优先向环信即时通讯云和环信移动客服老用户开放。
2、企业可以联系环信商务申请开通反垃圾服务。
3、环信反垃圾团队将跟企业沟通，了解用户垃圾消息的定义，商定垃圾消息的处理流程。
4、对企业的数据匿名处理，训练模型，上线服务。
5、环信将不断改进模型，提高准确率和召回率，同时帮助企业应对临时事件。

截至12月份，已经有数十家环信老用户试用开通了环信反垃圾服务。某知名女性社交App在申请试用环信反垃圾服务以后，环信选择其数据使用环信行为识别系统进行识别，发现该App目前的垃圾消息占比高达40%，其中，垃圾消息主要分为非法广告和虚假兼职两类，比例为9：1，极度影响用户体验。

通过环信行为检测系统，垃圾消息监测准确率高达99%，垃圾消息召回率高达82%。该社交产品负责人表示：“环信反垃圾服务上线后用户活跃度获得了明显提升，以后再也不用为各种色情、政治类消息提心吊胆了。”

环信反垃圾服务将于近期正式对外开放申请，具体请联系环信商务或者关注环信官网(http://www.easemob.com/)更新。

名词解释：召回率，是机器学习的评判指标之一。举个例子，现在某App有1000条消息，其中300条是垃圾消息，通过系统识别出了240条我们“算法认定”的垃圾消息，经过人工鉴定，这240条垃圾消息就是样本中的垃圾消息，那么算法的召回率是240/300=80%，算法准确率是100%。因为算法是一个学习的过程，所以会漏掉一些垃圾消息用作学习成本。

0

2015-12-22

0 个评论

要回复文章请先登录或注册

环信推反垃圾服务，八大技术为用户保驾护航

0 个评论

发起人