str2
今晚开码结果查询开奖53期香港马会开奖结果|六合资料|香港马会六和合彩资料|特码预测|特码资料|特码内幕|内部号码|特码直播 收藏 联系我们

百度又一个黑科技:AI内容风控了解一下?

2018-06-29 01:56

  全新分发逻辑下的诞生海量内容,人工审核的效率又非常低,风险在所难免,一旦监管收紧,风险剧增。可以说,内容产业就像握着半个罗盘,机器学习带来的高分发效率让他们不断靠近目的地,可对于内容的不可控又让他们不断偏离开了航线。

  最近,百度提出了AI内容风控概念。说起风控,通常大家会条件反射地联想到金融行业。实际上金融风控和内容风控的确有异曲同工之处,风控能力差时,老赖产生的坏账会一个金融服务上的整体收益,就像内容创作者钻产生的低质量内容会整个内容分发平台的声誉和用户体验一样。而金融服务的风控过去耗费大量人力,今天却可以依靠人工智能建立模型来实现,在这一点上,内容风控也是一样。

  而百度在内容分发方面一直是集大成者,在内容产业火热之前,百度以搜索引擎为立足点、以百度贴吧、空间等产品为沉淀,已经开始和大量图片、文字和视频打交道。何况不得不说一句,相比那些品类化的内容平台,百度产品定位是最大众化的,自然也会比其他内容平台更容易遇到不当内容。

  例如当内容创作者发布图片时,可以通过分类器发现图片的不当性。而如果发布的图片中含有商标、水印等等侵权问题,可以利用循环神经网络来进行命令实体识别。同时内容分发平台上还会经常出现大量注册账号,大量发布不当内容的行为,这时百度的内容风控体系就可以通过构建图模型挖掘这些账户之间的关联,将其一网打尽。

  在2017年全年,百度处置的有害信息高达451.2亿余条,其中99%的信息在上线前就已经被自动拦截,大大减少了人工劳动。有了这一AI风控体系,就好像掌握了罗盘的另一半,可以更加高效地回归航线,减少因为内容审核造成航行失控的可能性。

  可有害信息仅需要很简单的处理,例如(奥…&夜¥美#!女!&)这样的形式,就能出现在我们眼前。这是因为很多内容分发平台应用的AI审核机制过于粗放,没有能力应对海量内容,更没有能力应对越来越丰富的内容形式。

  例如同一内容的跨场景判断,就是困扰平台已久的问题。打个比方说,一张美丽的少女照片如果出现在时尚、美妆类的内容场景中就没有问题。但如果搭配上温柔、青春少女、按摩保健、同城交友这样的上下文,相信大家都能明白这是在暗示些什么了。

  在百度内容风控的解决方案中,为了在不同场景中寻找共性,引入了包含图片+文字的跨模态深度学习模型,以便可以对内容进行综合识别。同时为了模型在不同内容形式中重复可用,百度采用了迁移学习神经网络进行样本训练,从而增加模型的通用可迁移。

  另一题,则是内容审核之后的处理机制。作为创作者,有时用了一张侵权图片,或者是因为手误打了一些病句、错别字、词等等,只是无心之失。就如同有时忘记还信用卡一样,并非刻意逾期。但有些人却会故意不断发布不当内容,甚至注册多个小号以逃避审核封号。

  应对这种情况,百度在AI内容风控上提出了分阶段的处理手段。如果只是低危风险的无心之失,风控系统通常是以内容线下、自动下线等等方式进行处理。但如果进一步发展到中、高危风险,就会对账户进行整改、甚至下线作为惩罚。

  从全球内容产业的发展来看,内容风控机制的发展仅仅是内容产业整体进化重要一步。内容风控可以通过减少人工审核来提升内容分发的商业效率,让内容产业重量变得更轻--轻人力、轻成本、轻流程,让AI来解决更多问题。

  在海外, Facebook这类与内容打交道的企业每年都耗费大量技术投入在解决假新闻和低俗内容。谷歌也深受其害,曾经因在平台上发现涉及到的广告而陷入信任危机。目前谷歌正在利用人力对视频数据进行标注,从而训练出自动识别恶意视频的AI模型。

  同时,这样的AI内容风控体系,也可以在其他领域发挥作用。比如虚假信息泛滥的医疗广告,一直是违规内容的重灾区,通过AI风控体系,百度2017年打击虚假医疗广告6000万条,在医疗广告整治方面,百度风控系统全年屏蔽了近23万个非疗类词汇,大大减少了非疗保健广告的危害。

  在这样的前提下,利用AI进行内容风控的重要性只会不断提高,我们未来需要应对的不仅仅是不当内容和低质量内容,很可能还会有人类都难以分辨的虚假内容。这样看来,AI内容风控不仅仅是一项增益技术,而是驶向内容产业金银岛保驾护航的必由之。返回,查看更多