在搜索引擎优化自动提取描述的过程中,文本中有些内容和对象非常重要,它们会直接影响到摘要的质量。例如,标题中出现的关键词、词的频率、词的位置、句子长度、句子结构以及排版特征等,它们在自动生成描述的过程中,对摘要句的筛选、摘要的组织等发挥着重要作用,必须对它们深入体会,多加分析。
(1)标题
文本信息的标题是文本内容的重要体现,文本的各级标题都不同程度地反映了文本所讨论的主要内容。因此网站优化服务,标题中的词汇是摘要的重要素材,其中关键词和原文内容和讨论主题往往有紧密的联系。剔除了标题中的功能词,余下的关键词可作为抽取摘要句的“重要词”。
(2)词频
词频是指词语在文本中出现的频率。jcy强调,具有标引价值的词汇往往是中频词,高频词一般是反映句子语法结构的虚词,而低频词不适宜作为标引词。同样,在摘要中发挥重要作用的词汇也是具有较高频率的关键词(重要词),而这些词在整个文章中属于中频词。通过对这些“中频词”的数量可以计算句子的权值来确定摘要候选句。
(3)位置
不同位置的句子对文章及段落的主题贡献是不相同的,jcy对此曾经有过些研究,我们认为:段落首句为段落主题句的概率达85%,位于段落末句的概率也达7%。因此,这些位置的句子成为摘要句的可能性很大,在进行自动摘要的过程中,有必要提高处于这些特殊位置的句子的权值。
(4)指示词
文章中会有许多短语(词汇)用于引申出反映文本内容的总结性的句子,这类短语或词汇叫指示词。这类指示词有如下形式:“本文论述了”、“本文的目的”、“综上所述”等等,这些指示词后所接的句子往往高度概括了文献主题。因此,这些句子被选作为摘要候选句的可能性非常大。
(5)句子长度
摘要表现为短和精,即以简短的文字概括文章论述的主要内容。因此,在选择摘要句时,应选择那些较为精练简短的句子,过度冗长的句子通常不宜选人摘要中。
(6)句法结构
文章中的句子形式有多种多样,有陈述句、疑问句、感叹句等等,但真正反映文章主题的主要还是陈述句,这也表明文章的摘要多以陈述句组成。因此,选择摘要句时,应尽可能地抽取陈述句,而应避免疑问句、感叹句等形式的句子进入摘要。
(7)网页排版特征
在网页设计软件日臻完善的前提下,对机读文献的排版格式也提出了很高的要求。编者往往通过特殊格式突出文献的主题内容,如加大字号、改为粗体或改为特殊字体,加下划线、文字居中排列、加标号、增大缩进量、加阴影、加边框、超级链接等。确定词或句的权值时,应考虑这些特殊的格式特征,适当地将权值加大。
站内优化对于整个seo搜索引擎优化项目来说,占据非常大的比重。外部链接只能是在内部优化的基础上起到锦上添花的作用。jcy的观点:搜索引擎优化的重点就是考虑如何把网站做好,迎合搜索引擎的规则,避免触犯搜索算法。