打鼾的治疗

注册

 

发新话题 回复该主题

小满抄袭门如何避免看AI高效识别内容 [复制链接]

1#

沸沸扬扬的奥迪广告抄袭事件,为“小满”带来了大大的“满屏”效应。官方的回应、媒体的解读,还有天王的发声,已经给出了许多交代。但从技术的角度来看,或许我们还可以提供一个别样的视角。

作为基于人工智能技术提供内容领域的产品解决方案的公司,contentnote更希望从如何利用AI技术防范诸如“抄袭”之类的公关事件,帮助品牌或者广告公司更高效地识别内容风险。

首先从价值判断上来说,大品牌应该是非常注重原创的,也非常在意防范自身陷入抄袭的风险中。毕竟大品牌之所以能够“大”,就是因为在某一点上与众不同,无论是在品牌塑造,还是在产品创新上——抄袭本身也违背很多大品牌的价值观;并且一旦不小心置身于抄袭的风险中,品牌声誉将会受到极大影响。

然而,随着互联网的发展,内容以每天十亿量级的速度在累积,并且内容的供应链也涉及到很多环节:内容部门、外部供应商以及外部供应商的员工及外包商,这就导致品牌主即使具有很强的动力去避免“抄袭”,但面对庞大的存量内容时也往往有心无力。

对应的解决方案可以包含多方面的,比如说通过政策宣贯和培训建立诚信的文化、甄选具有声誉的供应商等。在这里我们介绍contentnote基于人工智能和大数据技术而开发的产品解决方案,这也秉承了我们的一贯理念:通过技术和商业需求的结合,让我们的客户能够享受技术带来的红利。

具体的解决方案步骤很直接,用图表示如下:

从技术角度,重复度查询主要是在第2步,可以分为对文本的查重,以及对图片/视频的查重:

●对文本的查重:从技术上,这个可以表述为:通过基于BERT的动态词向量计算方法,计算两个句子向量距离,作为两者的相似度(具体技术细节不单独展开,后续计划再出单独关于技术原理的文章)。请看如下案例:

如文本1A和1B,基本一致,只是做了少量的词语修改,相似度判别为97.3%;2A和2B尽管文本很短且是一个意思,但是相似度下降到了84.5%;对于文本3A和3B以及4A和4B,尽管是相同的话题,但是在表述和内容上都有明显的差异,相似度降低到了60%以下。

●对图片的查重:通过基于大规模数据集的ResNet模型,提取图片中具有代表性的特征,并编码成特征向量,然后计算图片之间的余弦距离,作为图片的相似度指标。下面是相应的例子:

比如对于图1和图A就基本是一张图,相似度判别99%以上;图1和图B尽管也比较类似,但是洗手液产品摆放角度和同框的瓶子不同,相似度也降到了85.7%。

以上是数说故事旗下contentnote产品从AI技术角度对营销内容查重的解决方案举例,下篇文章小编将带来contentnote产品在业务场景上的覆盖。

本文作者:数说故事

分享 转发
TOP
发新话题 回复该主题