如果一个APP一直给你推荐同样的东西,就像一个人在你面前絮絮叨叨同一件事情,你的心情想必非常糟糕。
去重服务在资讯APP中是一项基础服务,PUSH、图文、视频、直播等内容业务,甚至是作者编辑后台都会需要使用。去重服务细拆开其实是很复杂的,也容易出现“众口难调”的问题,因为重复的类型可能有:不同信息载体的重复(文章和文章、视频和文章等)、不同场景的重复(feed流、正文页等)、信息有无增量的重复(高度重复和一般相似等)……
- 无信息增量:包含的内容是同样的,用户从该内容中无法获得差异化的信息和体验。
- 有信息增量:包含的内容有部分相同或相似,即使之前已有相关的阅读,但用户从该内容中仍可以获得差异化的信息和体验。
对于第一种情况,是绝对去重,即将高度一致的内容过滤掉,“多选一”。关键点是“如何挑出原创或质量更高的内容”,文章质量、源质量、发布时间、原创度可以帮上忙。所谓“道高一丈魔高一尺”,上网搜关键词“躲避消重教学”,你会发现你要做的工作还有很多。
(图片来自网络)
另外直播形式下的专题或机器批量生产的标题,不同内容的标题可能一模一样,为了避免误伤太多内容,需要细化去研究内容的特性。
对于去重服务,定义标准很重要,拿图片重复来说:
(1)背景、人物动作完全相同的图片
(2)同一现场/背景,同一机位截图,人物相同(人物动作可能不同)
以上三组图片,在我们的认知里一般属于重复,基于以上的定义,我们再看几组图片:
(娱乐类)同一综艺节目,同一机位截图,但人物不同:
如果按先前三组的定义,以上图片属于重复,但从我们的日常体验能知道,它们是不一样的内容(只是同个系列),所以,区分分类(category)做细化的定义很有必要,只有这样机器才能按照人的期望学习并输出可用的结果。
除了内容,图片重复的形式也要定义,如在feed流里:
对于有信息增量的情况,处理方式要精细得多,面对的是“怎么推”的问题。可以考虑“分层定义->分场景限制”的推荐策略。定义文章相似,能用来辅助判断的元素有:
- 标题
- 摘要
- 图片
- 正文
- 类别
视频还有物理时长、音频、字幕等。
我们先来看看标题相似(内容相似或体感相似)的case:标题主体或关键词不同或模糊不清,强调的主旨相同,用词或长或短;同一事件不同角度:
其中,容易被机器识别为相似从而产生badcase(会降低内容的分发效率),产品汪需要留意一下:
- 不同主体同一方面
- 同一主体的不同方面
- 强本地属性的类似事件
- 同一领域中关联度较高的事件
- 同一领域(如星座、育儿)实体或关键词相似,但事件面不同
- 同属一赛事(如世界杯),不同赛事
- 体育球星、会议与政策之间等不同面
当NLP能较准确识别相似内容时,分场景限制的策略可以从哪些维度入手?
- 时间间隔去重:如操作时间在12小时之内,做严格的相似过滤逻辑
- 刷数去重:如邻近50刷,做严格的相似过滤逻辑
- 事件去重:如同一事件内容不得黏连
- POI(兴趣点)/Keyword(关键词)去重:如同一刷同一个POI不得超过3个,重排打散
- 源去重:如同一刷同一个源的文章不得超过1篇
还可以对不同用户(如投诉过重复老旧的用户、新老用户)做不同程度的控制;也可以根据相似度将相似分层,做不同程度的控制;也可根据事件的热度,做不同程度的控制;也可以根据用户的兴趣的浓度做不同程度的控制。
去重力度需要产品汪把控,而且去重工作中还有很多内容需要确认:比较的对象、信息载体、时间长短、数据来源等等。没有最佳方案,本文旨在引发思考且补全思路,只有不断测试,才能找到适合自己产品的组合方案。