基于BERT构建了看店日报热点召回系统,大大提升了看店日报热点内容等核心指标。本文将详细讲解看店每日热点召回系统的总体框架和核心方法。荷兰电话号码列表 1.业务背景看点日报旨在为用户提供新的热点和优质文章,对及时捕捉热点事件和文章有非常强烈的需求。人工从海量文章中查找热点文章无疑是一项巨大的运营成本,因此自动发现热点文章是必要的需求。热点事件发现的及时性、热点事件的覆盖率、文章聚合成事件的效果、召回率热点召回文章的数量,热点文章的质量是热点召回系统的核心指标。通过对大量互联网数据的高频实时爬取,荷兰电话号码列表 以及基于热点事件聚类和文章标题匹配在BERT模型上,我们有效提升了我们热文召回系统的核心指标。在热文召回方面,热文每天召回的数量从1K+上升到1W+。
看点每天被激活的文章数量在8W左右,超过10%的文章会被我们的热点系统召回为热点文章。在调用准确率方面,荷兰电话号码列表 在寻找最匹配标题的测试中,我们的 BERT 模型准确率高达 98.4%,在 Aspects 中已经启用的热事件能够召回文章的比例也高达 93.5%。 2.为什么选择BERT?在应用BERT之前,我们实现了一个版本的BiLSTM-DSSM模型,但由于准确率不够而被弃用。在寻找最匹配标题的测试中,BERT和BiLSTM-DSSM的对比如下:荷兰电话号码列表 QQ看点日常内容优化——基于BERT的热点召回系统BERT的原理网上有很多详细的资料,这里不再赘述。本节简要介绍BERT的强大优势,使其比LSTM等其他模型更强大。
优势1BERT采用pre-train+fine-turning的训练模式,基于大量语料进行预训练。在预训练过程中,BERT 已经可以学习单词、句法和语义等特征。荷兰电话号码列表 具体任务只需要使用少量数据进行fine-tuning。比如我们的任务需要标注语料进行训练,很难提供大量标注数据,但是使用BERT可以完成我们的训练任务标记数据量较少。优势 2BERT 是具有上下文信息的双向语言模型。与 GPT(单向语言模型)和 ELMO(粗略的双向语言模型,简单的前向和后向相加)荷兰电话号码列表 相比,BERT 具有得天独厚的优势。QQ看点日常内容优化——基于BERT的热点召回系统优势 3BERT使用Transformer作为一个特征提取器。