每个人都知道中英文句子是有区别的。这不是字母和汉字的区别,而是英语单词和单词之间有空格。在汉语句子中,词和词之间没有分隔符。一个句子中的词连在一起!因此,在这个时候,搜索引擎首先要区分哪些词构成一个词,哪些词本身就是一个词!例如,“XXX集成灶”分为“XXX”和“集成灶”。
汉语分词一般有两种方式:
A:字典匹配:分为正向匹配和反向匹配。
B:根据搜索统计
这两个经常混在一起!有时候百度和谷歌的词汇关联性是不同的。例如,搜索引擎优化在百度是一个完整的词,而在谷歌则分为三个部分:搜索引擎和优化。因此在进行优化时必须注意关键词的特点。稍后我们将详细讲解选词技巧。
注:如果我们必须把一个词放在一起,而不是让搜索引擎分割技术把它分开呢?
我们可以这样做:在页面标题,h1标签,使用粗体表格粗显关键字!这样,为了正确提醒搜索引擎,搜索引擎会知道我们的单词是一个组合词,不会将它分开!
什么是停止语?是那些出现频率较高,对内容没有实质性影响的词;如“得”、“得”、“地”、“啊”、“哈”、“啊”等感叹词,“因而”、“易”、“但是”等副词或介词,这些词被称为停止词!在英语中,有:the,a,an,to,of等等。
搜索引擎停止单词主要有两个目的:
一是使指标数据的主体更加突出,减少不必要的计算量。
另一个是检查你的内容是否与另一个数据库中的内容有大量重复。
在此我们需要提醒大家,今后不要随便在网上抄写文章,并在网站上加上一些停止语粘贴。在学习了以上内容之后,你应该明白它的含义!
这里的噪音不是我们所说的噪音,它是指一种垃圾,也就是多余的词!这些词一般都包含在版权声明、导航栏、广告中!消除噪音的目的是使页面更好地显示主题内容:
例如:博客中的分类目录和历史档案等。
那是什么意思?如果同一篇文章出现在不同的网站或链接到不同的地址,搜索引擎会认为它是一个文件,它不喜欢这样重复的内容,所以它不会抓取!在索引之前,需要识别和删除重复的内容,称为“消除重复”。
搜索引擎如何称重!我们不需要掌握技术,但我们需要注意几个要点:
A:简单地加“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”、“de”就容易了
B:抄别人的文章,简单的换段结构!这种伪原创也要慎用!
这是因为:这样的操作并不能改变文章的具体关键词,以上的做法总是逃脱了搜索引擎的权重去除算法。