联系我们 - 广告服务
您的当前位置:主页 > 科技 > 业内 >

用于查找用户搜索意图的超快速机器学习模型

来源:未知 编辑:admin 时间:2019-12-02
导读: 哈姆雷特巴蒂斯塔(Hamlet Batista)写了几篇关于如何利用自然语言模型(例如BERT)标记意图的出色文章。 在许多行业中,关键字longtails可以扩展到数百万个。因此,更快,更实惠的Burkholder解决方案可以带来很大的不同。 信息性该人正在寻找有关主题的更多信息

  

用于查找用户搜索意图的超快速机器学习模型

  哈姆雷特巴蒂斯塔(Hamlet Batista)写了几篇关于如何利用自然语言模型(例如BERT)标记意图的出色文章。

  在许多行业中,关键字longtails可以扩展到数百万个。因此,更快,更实惠的Burkholder解决方案可以带来很大的不同。

  信息性该人正在寻找有关主题的更多信息。这是通过是否存在答案框或PAA(人们也问)框来表示的。

  这是估算搜索意图的最酷的方法之一,因为它利用了Google对搜索意图的理解(如针对该搜索显示的SERP功能所表示)。

  对我来说,最大的问题是,我可以利用从Burkholder的代码中获得的搜索意图标签,利用相同的技术(Uber的LudwigBERT编码器)创建准确的模型吗?

  这意味着,当您要求该模型预测无标签搜索查询的意图时,每10个模型中就有8次将为您提供与Burkholder基于Serp API规则的分类器返回的标签相同的标签。它还可以免费,大量,快速地做到这一点。

  我使用来自SEMrush的与服装/时尚相关的搜索词的巨大列表(13,000个关键字)作为我的训练数据来完成此过程。我得到的模型的准确率仅为80%。

  有了准确的培训集,任何人都可以超快速地标记大量关键字,而无需花费一分钱。

  因此,原本需要花费数千美元和几天的时间才能完成的工作现在可以在几分钟之内免费完成。

  3.将上一步中标记的数据用作BERT模型的训练数据。Batista的代码非常简单,本文将指导您完成该过程。使用大约10,000个训练数据标签,我能够获得约72%的准确性。

  为了使SEO工具有用,它们需要可扩展。关键字研究,内容策略,PPC策略和SEO策略通常依赖于能够对整个细分市场/主题/主题/网站进行分析。

  2.在步骤1的关键字列表上运行Burkholder的脚本。这将需要注册购买积分。我建议使用此脚本获取至少10,000个搜索查询的标签,以用于培训。训练数据越多,您的模型将越准确。

  因此,我开始思考:如果我采用Burkholder的方法,而不是直接使用它对意图进行分类,而是可以训练它然后用来对意图进行分类的机器学习模型,该怎么办?换句话说,我将花费一次成本来制作带有Burkholder标签的培训集,并且假设它足够准确,那么我可以将该培训集用于所有进一步的分类,而无需花费任何费用。

  通过培训BERT编码器,他获得了出色的结果,在预测新标签或未标签搜索关键字的标签方面,准确性接近90%。

  2019年4月,本杰明伯克霍尔德(本杰明伯克霍尔德)(真是太棒了)发表了一篇中型文章,展示了他编写的脚本,该脚本使用SERP结果功能来推断用户的搜索意图。该脚本将API用作其数据,并通过以下方式标记搜索查询:

  就我而言,我使用了来自相关领域(化妆)的关键字而不是服装关键字,总的来说,我认为它做得很好。使用BERT模型,标记5,000个搜索查询花费了不到两分钟的时间。这是我的结果:

  导航该人正在搜索特定的网站。这是通过是否存在知识图或是否存在站点链接来指示的。

  Burkholder方法的一个问题是对Serp API的依赖。如果您要查找大量搜索查询,则需要通过API传递每个查询短语,然后由API进行实际搜索并返回SERP功能结果,然后Burkholder的脚本可以对其进行分类。因此,在大量搜索查询上,这既耗时又昂贵。

  用更多数据训练模型似乎有可能在一定程度上继续提高其准确性。如果您有任何尝试并提高了80%的准确性,我很想听听。我认为通过20,000多个标签搜索,我们可以看到高达85-90%的准确性。

  商业调查该人的目标是尽快购买商品,但仍在调查中。通过是否存在付费广告,是否存在答案框,是否存在PAA或SERP底部是否存在广告来表明这一点。

  在他的帖子中,他使用了现有的意图标签模型,该模型从Kaggle的Questions Answering Dataset中返回类别。尽管这些标签可能有用,但它们并不是真正符合我们通常针对意图分类法的“意图类别”,而是具有诸如“描述”,“实体”,“人”,“数字”和“位置”之类的标签。

  SerpAPI每个关键字的费用约为0.01美元,因此分析5,000个关键字将花费您50美元。通过Burkholder的标签脚本运行这些结果还需要3到5个小时来获得这5,000个关键字。

  我预见到AI和机器学习工具将在我们的行业中越来越多地使用,使SEO,付费搜索专家和内容营销商获得在这些新的AI突破之前无法实现的超级能力。

  1.收集您的关键字列表。如果您打算训练自己的模型,建议您在特定类别/细分市场中这样做。训练与服装相关的关键字,然后使用该模型标记财务相关的关键字,其准确性可能大大低于训练与服装相关的关键字,然后使用该模型标记其他未标记的服装相关的关键字。就是说,我确实尝试使用在一个类别/细分市场上标记的模型来标记另一个类别/细分市场,但对我来说结果仍然相当不错。

责任编辑:admin

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

网友评论:

在“\templets\demo\comments.htm”原来的内容全部删除,插入第三方评论代码,如果不需要评论功能,删除comments.html里面的内容即可
推荐使用友言、多说、畅言(需备案后使用)等社会化评论插件

Copyright © Www.maoshengbuye.com 刘伯温精选一肖大公开 版权所有 
本站所有资讯来源于网络 如有侵权请联系QQ:410155558
Top