AI 如何做影视资源站内容去重
影视资源站常从多个采集源获取同一部剧,标题格式各异但内容相同。AI 语义去重可以识别"剧名+年份+集数"实质相同的条目,避免重复收录和权重分散。
去重键设计
- 硬规则:剧名 + 年份 + 集数完全匹配则合并
- 软规则:标题语义相似度超过 90% 触发 AI 复核
- 演员、导演字段作为辅助判断
AI 复核流程
软规则命中后,将两条记录的标题和简介送入 AI 判断是否同一内容。AI 返回"相同/不同/不确定",不确定的进入人工队列。
与更新频率配合
去重后的条目保留最新采集源的更新时间和播放地址,旧条目 301 或合并到 canonical URL,保持 sitemap 中只有一个有效详情页。