内容化时代，SEO如何提升？阿里工程师揭秘新思路-阿里云开发者社区

小叽导读：随着内容化时代的到来，搜索引擎越来越重视站点页面的内容承载和丰富度。Alibaba.com作为服务买家和供应商的全球顶尖B类跨境贸易平台，在Google不断提升内容化排名的情况下，阿里工程师是如何突破原有SEO优化手段，提升电商平台的排名的呢？又是如何将人工智能知识应用在摘要内容的抽取过程中？今天，我们一起学习探讨这一技术，希望对你有所启发。

作者 | 郭栋栋、顾骅、胡熠、王皓

背景

SEO是一种通过遵循搜索引擎原则，并持续优化网站，以获取网站在搜索引擎中更高的排名的技术，通过更高的排名使得网站可以获取更多流量。SEO的优化工作可以从非常多的方面做起，比如TDK的优化、内外链建设、无线化等等传统的优化方法，在这些方面alibaba.com的工程师已经做了大量的工作。

随着搜索引擎算法能力的提升，它越来越关注搜索用户的实际体验，真正有内容价值的页面越来越受到青睐，给予的排名也相应提高，吸用更多的用户。下图1是国外机构给出的近两年SEO影响因素的重要性排名，从中可以看到内容建设在SEO的重要性非常高(23%)。

图1.SEO影响因素排名

我们所做的工作主要是聚焦于网站的内容建设上，本篇文章将会分享我们把深度强化学习应用到国际站SEO(搜索引擎优化)的一些工作与尝试。

在这项内容建设的工作中，我们主要是做了一个商品摘要信息抽取的任务，去优化站内SEO Landing List页面质量。具体来说，我们在搜索Landing List页上，为每一个商品添加相应的商品描述摘要信息。这样，一方面增加页面文字内容，提高了google搜索引擎的SEO排名，为站内SEO引入更多流量；再者，通过对于商品的描述，吸引用户停留，提高用户二跳点击率，增强页面粘性，这样也进一步正向影响SEO排名（如下图2所示已上线内容）。

图2.效果页面（红色框标识区域为我们添加的摘要内容）

问题描述

给定商品和相应的商品描述，我们希望从商品描述中抽取出合适的句子作为商品摘要信息。目前在alibaba.com国际站内做这个任务主要面临了两个主要挑战：

目前站内描述没有严格的标注数据，无法直接指导模型应该抽取哪些句子作为商品摘要信息。

站内商品描述复杂多样，商品描述中还存在着大量的物流、付款、QA等信息，如何从较多的噪声中抽取出真正描述商品本身的摘要语句也是较大的困难。

算法探索

Textrank模型

我们可以认为这是简单的摘要抽取，将这个问题定义为一个无监督任务，用一个传统快速的算法模型作为Baseline即：Textrank算法。Textrank算法是一种常见的无监督摘要抽取算法，主要通过比较商品描述中的各个句子与其他句子的语义相似度，计算各个句子的Textrank值，再基于此排序选择top-N句作为摘要信息。我们用来计算语义相似度的公式为：

在人工review的过程中，我们发现Textrank产出的结果包含了较多的噪声，其原因主要是站内数据相对较杂，很多商家会把很多商品无关的信息加入到商品详情描述中，比如物流、付款等信息。而Textrank算法是一个基于语义相似度的无监督算法，这种情况下抽取的句子可能会产生偏差，比如抽取的句子在描述付款流程而不是真正在描述商品本身。对于上文所提到的两个挑战（无监督、噪声多），Textrank算法本身并没有办法去很好的解决。

注意力模型

鉴于上文提到的无监督的挑战，我们提出了一些改进策略。首先引入了商品类目标签，把无监督学习转化为了弱监督学习，通过商品类目标签，指导模型抽取类目相关的语句作为商品摘要抽出，转化为弱监督学习。越是类目相关，也越有可能是在描述商品本身，相对也更适合作为商品摘要信息被抽取出来。基于这个弱监督目标，我们提出了第一个改进工作——注意力模型。

实践中，我们发现注意力模型非常适合该类任务。概括来说，我们构建了一个基于商品描述的文本分类模型，分类的目标就是我们引入的商品类目标签。在商品描述的类目分类中，由于我们引入了注意力机制，注意力机制会为每句话分配一个注意力权重，一句话的权重越高，也就是说该句子越类目相关，则更适合作为商品摘要信息被抽出。我们的模型细节如图3所示。

图3.基于注意力的商品类目分类模型

图3示例的商品描述中有三句话，分别描述了商品的材质、外形以及商家的联系方式。首先模型通过共享参数的CNN网络对每句话做一个特征提取。经过特征提取的特征向量Vector1、Vector2和Vector3通过注意力机制进行结合。这边用的注意力机制参考[1]，具体公式如下：

首先每个特征向量通过一个全连接网络进一步提取特征，并和一个全局向量U计算相似度，全局向量U可以理解为多个类目标签的抽象表示。这里计算出的相似度α则是各个句子的注意力分配。之后各个特征向量根据权重α做一个加权和，形成最终的商品描述的特征向量D。最后基于D构建一个商品类目分类的全连接层。在模型正确训练的情况下，注意力权重α会把更大的权重分配给更加类目相关的句子，比如描述材质以及外形的句子，通过他们可以比较确定该商品是一个T-shirt。而第三句描述了商家的联系方式，在不同类目中，可能都会有相似的句子，即他们相对来说类目无关，所以注意力的权重一般相对较低。之后我们根据注意力分配进行排序，根据排序的结果，选择top-N个作为输。

案例分析：

在完成了注意力模型后，我们发现依然存在一些缺点。对于前文所述的两个主要挑战，注意力模型只能解决第一个，即从无监督学习转化为一个弱监督学习。而对于第二个噪声较多的挑战，目前来说并没有得到很好的解决。

图4.案例1

具体来说，有两种情况注意力模型没法很好应对，如图4所示，在Case1中，商品描述的质量相对较高，存在多句的商品摘要信息。这里假设超参top-N设置为2，会舍弃其余优质的摘要语句。而在Case2中，商品描述内容与商品关系不大，一句合适的摘要信息都没有，这种情况下，依然受限于top-N=2的限制，注意力模型依然会选择两句作为摘要，这种情况便引入了较多的噪声。从两个案例中可以看出，受限于超参top-N，注意力模型无法动态根据商品描述的质量合理选择相应数量的摘要信息，从而引入大量噪声。因此，我们进一步提出了模型的改进方案，即强化学习模型。

强化学习模型

强化学习模型我们采用了Selector-Classifier的模型架构，参考了[2]，其中Selector Network负责从商品描述中选取合适的摘要信息作为输出，而Classifier Network负责评判选取的句子的质量，并反馈奖励，两个神经网络共同训练。具体模型架构如图5所示。

图5.强化学习模型架构

具体来说，模型中一共包含了三个网络——Encoder Network, Selector Network以及Classifier Network。

首先是一个Encoder Network，它的主要作用是特征提取，把原句子经过特征提取，形成特征向量Vec1至Vec4。基于这四个特征向量，Selector Network开始做选择操作，Selector Network的输出单元长度为1，含义是该句句子被认为是类目相关的概率。

然后，Selector Network在商品描述的所有句子上都完成决策后，被接收的句子送进Classifier Network，计算类目分类时的交叉熵损失，并将损失作为reward反馈给Selector Network，帮助他进行策略更新。

另外，在某些情况下，Selector Network可能会对每句商品描述都做出拒绝操作，该种情况下由于无法通过Classifier Network对策略进行reward估计，我们则采用在训练集上的类目分类的平均交叉熵损失作为reward反馈给Selector Network进行更新。

实验分析

目前我们主要做了两个线下实验去检验我们模型的性能。

第一个实验主要是用摘要抽取模型在原来包含噪声的数据集上进行摘要抽取，将抽取出来的句子代替原来的数据集，使用同一个分类网络（text-CNN）进行类目分类的任务。在性能评测中，我们加入了Textrank算法共同比较。具体的评测结果以及在验证集合上的Loss曲线如下图6所示：

图6.实验结果1

这里的全量数据是指不经过任何信息抽取模型，直接用原来含有较多噪声的数据进行商品类目分类任务评测。从实验结果中可以看出，全量数据含有非常多的噪声，直接在其上训练商品类目分类模型的性能较差，accuracy只有约47.5%，而强化学习模型性能较好，取得了80%左右的accuracy，说明其排除了较多的噪声。这一点从在验证集合上的Loss曲线也可以看出，全量数据由于含有较多的噪声，拟合相对较差，而强化学习模型则拟合最好。同时注意力模型的性能略优于Textrank模型，提升了约4%。

另外我们做的第二个实验是一个有监督的评测，我们人工标注了1000条数据，在标注数据上比较各算法的性能。具体的实验结果如下图7：

图7.实验结果2

这边可以看到强化学习模型的Precision和F1值相较于两个baseline（注意力模型和Textrank算法）有较为明显的提升，而Recall则相对较低（低于注意力模型0.1）。这里的主要原因是强化学习模型目前人工标注的数据上输出的句子数目比注意力模型和Textrank算法要少约30%，在这种情况下，Recall值会相应有所降低，但目前来看损失的幅度较小，同时会获得Precision上的明显提升。

另外一点值得注意的是注意力模型在引入了商品类目标签后，在两个实验中性能相对于无监督的Textrank算法均没有特别显著提升，这边我们认为的原因有两点：

1）top-N的超参设置限制了两个模型的性能，使得两者性能皆表现不佳，目前我们还没有找到合适的方案使得模型根据商品描述质量本身动态选择参数top-N。

2）注意力机制还需要进一步优化。在注意力机制上，我们注意到在[1]中类似的注意力机制主要用于少数类别分类问题，而在我们的业务场景中，则是类目量级远大于前者，考虑到全局向量U可能无法有效编码所有类目信息。

为此我们在商品描述上，做了一个文档级别的类目分类测试，使用了相同的CNN网络，一个使用注意力机制，另外一个不使用注意力。最终的训练结果如下图8：

图8.注意力机制评测

可以看到目前的注意力机制并无法带来显著的性能提升。后续我们考虑Selective attention机制可能更加适合于我们当前的业务场景[3]。

案例分析

基于之前注意力模型无法处理的两类案例，我们做了一些案例分析（如图9）。在Case1中，四句的商品摘要信息质量都相对较高，Attention列的的数值代表了注意力模型的注意力权重分配，从中也可以看出四句话的注意力分配相对较为均匀，但由于top-2的设置，注意力模型选取了后两句作为输出，从而错过了前两句。该种情况下，强化学习模型则能自适应的选择全部接受的操作。

而在Case2中，四句商品描述的与商品本身相对无关，从注意力分配的权重也可以看出，前三句由于类目不相关，注意力分配的权重较低，第四句相较前三句质量稍高，由于注意力需要Softmax至概率空间，所以第四句给出了极高的权重，最终选择了注意力分配靠前的第三、四句。而强化学习模型在这种情况下则选择了全部拒绝的操作，从而有效处理商品描述中不存在商品摘要的情况，进而排除掉更多的噪声。

图9.案例2

线上效果

线上评测一个月的时间，如下图10，纵坐标为UV，横坐标为实验天数，我们从流量引入量侧面来验证google的SEO对于这部分页面的排名的提升，如蓝线所示，可以看到上线后页面能带来稳定的UV提升。

图10.线上评测结果

展望

从相关的实验以及我们自身的人工review来看，目前模型已经具备不错的除噪能力，其产出的结果，有了较好的可读性且包含相对较少的噪声。与此同时，该方法或能够与seq2seq模型结合，为文本导购生成获取优质的训练预料，从而解决英文场景训练语料较少的状况。

参考文献：

[1] Feng J, Huang M, Zhao L, et al.Reinforcement Learning for Relation Classification from Noisy Data, Proceedingsof AAAI. 2018.

[2] Yang Z, Yang D, Dyer C, et al.Hierarchical attention networks for document classification, Proceedings ofNAACL. 2016

[3] Lin Y, Shen S, Liu Z, et al. Neuralrelation extraction with selective attention over instances, Proceedings ofACL. 2016

内容化时代，SEO如何提升？阿里工程师揭秘新思路

背景

问题描述

算法探索

Textrank模型

注意力模型

案例分析：

强化学习模型

实验分析

案例分析

线上效果

展望

参考文献：

阿里机器智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景