准备好开始了吗?
根据语境内容定位运作有效的基于机器学习的用户获取营销活动。
随着即将来临的iOS 14上的广告标识符(IDFA )的实际性淘汰,广告商面临挑战要找到替代的非基于用户的定位解决方案,它仍然要产生有竞争力的CPI和有价值用户——游戏方式不同,但目标还是一样——有效的发展。
随着语境内容定位现在成为关注的焦点,为了获取超出轻易受到操纵的商店类别之外的信息,我们使用一个叫做ELMo的单词表示方法来代表每个bundle为向量,这样可以测量应用之间在语境内容上的‘距离′。计算出来的距离然后作为数百个其它性能其中之一输进我们的预测模型,并在我们的竞价逻辑中扮演重要的角色。
为了突出其有效性,我们创建了语境距离计算器。使用它会根据对各个应用商店描述文本之间错综复杂的比较向你显示在技术操作、主题、性能及更多方面和你的应用最相近的应用。
在为我们的安装和购买预测模型设计和语境相关的功能时,我们考虑了两个关键的预设观念:语境在预测用户行为和广告互动上扮演重要角色,并且语境可以有显著的细微差别。
这些观念让使用商店类别毫无作用,因为它们包括固有的偏向,并且在某些情况下由于应用商店优化(ASO)方面的顾虑具有明显的不准确性,而其它方法(例如通过使用主题建模方法(例如LDA或W2V)进行聚类来自己创建类别)并没有产生我们想要的信息获取和精准度提升,我们意识到要找到一种单独代表每一个bundle的方法。
在权衡了任务的复杂度以及通常用于解决机器学习中和语言有关的问题的工具后,我们的数据科学家的研究指向了测试ELMo。ELMo使用神经网络学习在用于不同语境时单词及其含义之间的联系,这是通过在海量的55亿个词条(单词及其组成部分)数据集里学习它们用在哪些词组里来做到的。
在训练了ELMo模型后,它代表每个词为向量,这使我们可以测量每个词之间的余弦距离,它显示了单词之间的语义和句法的相似程度。因为考虑到每个单词对理解语境是至关重要的,ELMo证明了是对这种复杂任务最可靠的选择之一。
词向量如何在语境上很靠近,同时有效地通过余弦距离进行测量的一个示例
单词的加权和聚合如何形成bundle向量的描述
在生成词向量后,下一步是以有效地代表其语境的方式为每个bundle对这些向量聚合。表面上,把商店描述的整体嵌入进单个向量表现,这样我们可以测量不同应用之间在语境内容上的‘距离′。
我们研发过程里的这一步结果是最复杂的。只是简单地计算应用的商店描述里的所有词的向量的平均数听上去很合理,但会丢失与特定单词在特定应用的商店描述以及整个语料库里出现或重复出现的频率有关的有价值的数据。
在进行了大量测试后,在测试里产生出最大信息获取的方法是基于NLP的基本数字统计(自然语言编程,专注于文本分析的机器学习领域)——TFIDF——词频—逆文档频率,它基本上表明语料库里特定单词的罕见性。
最终,我们的bundle表现发展为每个词向量的加权平均乘以词向量的TFIDF值,这样是为了把重点放在通常表达每个应用的独特主题、技术操作和性能的更罕见、更有细微差别的单词上,因而给我们的模型提供非常有颗粒度但有价值的信息。
根据语境内容定位运作有效的基于机器学习的用户获取营销活动。