网站SEO诊断之URL规范化设置及常见问题

能金seo 2020-05-01 09:30 188

摘要:  URL规范化(urlnormalization)其实就是一个标准化URL的过程,URL规范化用于搜索引擎可以减少对页面的重复索引,同时也可以减少爬...

  URL 规范化(url normalization)其实就是一个标准化 URL 的过程,URL 规范化用于搜索引擎可以减少对页面的重复索引,同时也可以减少爬虫的重复抓取浏览器端识别用户是否访问过一个 URL 也需要使用 URL 规范化。

网站SEO诊断之URL规范化设置及常见问题 目录 规范化 搜索引擎 我们在 做好 第1张

  一个网站的 URL 在搜索引擎搜索结果中,是能够展示出来的,我们在做网站之前,最好要提前将目录文件做好规划。以便我们在做 SEO 的同时做好用户体验。所选择的 URL 最好能做到清晰、方便记忆的的效果,然后可以考虑其中的排名。下面子凡就从三个大方面开始探讨咯!

  一、URL 规范化注意事项

  1.网站的 URL 越短越好,URL 的长度不超过 1000 个字节就可以被搜索引擎收录,但是这几百个字母需要用户记住的话也是很难的,因此我们选择的 URL 越短越好,最好方便用户去记住这个 URL。

  2.URL 中避免出现太多参数,在一些开源的程序中,会出现很多种参数,一旦参数越多,会影响引擎蜘蛛的识别,很容易使网站进入蜘蛛陷阱。为了避免这种情况,建议大家尽量使用静态的 URL 或者伪静态的 URL。

  3.目录层级越少越好,减少网站的深层次目录,有助于网页的收录。如果是门户网站或者大型的网站,如果目录太深的话,可以选择使用 2 级域名来代替很深层级的目录。

  4.具有很强的描述性,每一文件和目录具有描述性。

  5.URL 中包含关键词,在一个 URL 中包含关键词可以提高页面相关性,比如目录可以用拼音或者英文来命名,搜索引擎会识别目录的英文含义。

  6.字母全部小写,网站里面的字母尽量要使用小写字母。

  7.连接符的使用,文字、链接符之间的链接一般要使用连接符或者横线。

  二、不规范的 URL(示例)

  1 URL 中多余的字符

  1.1 子域名的 URL 中包含"www": "HTTP://www.blog.leiue.com/"

  1.2 含有默认端口: "http://www.leiue.com:80/tech/"

  1.3 松散的 URL: "http://www.leiue.com/tech/amazon-sucks-donkey-balls/9780470170779-item.HTML"

  1.4 多余默认文件名 index.html,default.php 等:"http://www.leiue.com/tech/index.html"

  1.5 文件路径中

  (1) 多余的"/":"http://www.leiue.com/tech//"

  (2) 多余的点修饰串:"http://www.leiue.com/a/b//page.html"

  1.6 查询串中多余的

  (1) ? (空查询串):http://www.leiue.com/tech?

  (2) &

  (3) 无用的查询变量:http://www.leiue.com/display?id=123&fake=fake

  2 URL 缺少字符串

  2.1 缺少"/":"http://www.leiue.com/tech"

  2.2 查询串缺少名称或者值:"http://www.leiue.com/display?id=" 或者 "http://www.leiue.com/display?=123"

  3 其他不规范的 URL

  3.1 "http://tech.leiue.com/" 与 "http://www.leiue.com/tech/"其实是相同的内容

  3.2 使用 IP 代替域名

  3.3 含有扩充字符(extended characters),大小写敏感("http://www.Google.cn/Intl/zh-CN/about.html" 和"http://www.google.cn/intl/zh-CN/about.html")

  3.4 "+"和"%20"混用

  3.5 查询变量顺序混乱:"http://www.leiue.com/test.PHP?bar=1&a=test"

  3.6 含临时的状态变量:http://www.leiue.com/test?back=/go.php

  三、URL 规范化设置

  URL 组成:

  protocol :// hostname[:port] / path / [;parameters][?query]#fragment

  协议://主机名[:端口]/ 路径/[:参数] [?查询]#fragment

  URL 规范化过程:

  1.URL 协议名和主机名小写化

  HTTP://WWW.EXAMPLE.com/test -> http://www.example.com/test

  2.escape 序列转化为大写,因为 escape 序列大小敏感%3a ->%3A

  3.删除 Fragment(#)

  http://www.example.com/test/index.html#seo -> http://www.example.com/test/index.html

  4.删除空查询串的'?'

  http://www.example.com/test? -> http://www.example.com/test

  5.删除默认后缀

  http://www.example.com/test/index.html -> http://www.example.com/test/

  6.删除多余的点修复符

  http://www.example.com//a/b//c/./d.html -> http://www.example.com/a/c/d.html

  7.删除多余的"www"

  http://www.test.example.com/ -> http://test.example.com/

  8.对查询变量排序

  http://www.example.com/test?id=123&fakefoo=fakebar → http://www.example.com/test?id=123 \

  9.删除取默认值的变量

  http://www.example.com/test?id=&sort=ascending → http://www.example.com/test

  10.删除多余的查询串,如?,&

  http://www.example.com/test? → http://www.example.com/test

  11.Dust 规则

  http://www.example.com/test?id=123 -> http://www.example.com/test_123

  四、URL 防止重复设置技巧

  举个常见的来例子来说,下面这几个 URL 一般来说指的是同一个文件或网页:

  http://www.domain.com

  http://domain.com

  http://www.domain.com/index.html

  http://domain.com/index.html

  从技术上分析这是四个不同的地址,而在实际的使用过程中,被大多数人当作是一个地址使用着,所以在这个时候我们就需要做好设置,否则网站将会出现大量的重复。

  相信这个对于很多人来说并不陌生,因为这些常常被一些人忽略,或者是有些人自作聪明,为了让搜索引擎更多的抓取网站页面,甚至有的站长还把几个域名解析到同一个主机,总觉这样可以提升收录,其实不然,搜索引擎又不傻,重复的多了,就是被索引,也没有什么排名,反而徒劳无功。

  所以遇见这样的问题我们就需要确定网站的一个主域名,而像泪雪博客的就是使用的没有 www 的域名,所以就算你输入 www 访问也会自动跳转到没有 www 的域名上面,而像之前泪雪博客还使用过一个二级域名,现在依然是做了301 跳转的,从而确定网站主域名,确保网站内容 URL 的唯一性。

  写在最后:不规范的 URL 会造成网站很多重复的 URL,导致爬虫重复抓取同一内容,影响网站有效的内容被抓取,同时也就影响索引。多个不规范 URL 造成页面权重稀疏,本来流向同一页面的权重,结果造成了流向多个不规范的 URL。还有一个用户体验问题,复杂或者不规范的 URL 容易使用户对网站造成不良印象。

  除非注明,否则均为泪雪博客原创文章,禁止任何形式转载

  本文链接:https://zhangzifan.com/url-normalization.html


相关推荐

评论列表
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~
关闭

用微信“扫一扫”