Categories


Tags


Sitemap文件标准格式和大小说明

1、格式:

您可以采用如下三种格式的文件向360搜索提交Sitemap,文件编码可以是UTF-8或GBK:
1)标准的XML格式文件
2)文本格式文件
3)Sitemap索引文件(可同时包含多个Sitemap文件)

2、大小:
1)单个Sitemap文件:大小不超过10MB,且包含不超过50000个网址。如果网站所包含的网址超过50,000个,则可将列表分割成多个Sitemap文件,放在Sitemap索引中。
2)单个Sitemap索引文件:大小不能超过500M,如果超过请提交多个Sitemap索引文件接口。


各格式样式参见以下说明:

1、XML格式Sitemap说明
1) XML格式举例

   <?xml version="1.0" encoding="utf-8"?>
   <!-- XML文件需以utf-8编码-->
   <urlset>
      <!--必填-->
       <url>
           <!--必填,定义某一个链接的入口,每一条数据必须要用<url>和</url>来标示 -->
           <loc>http://www.xxxxxx.html/000000.html</loc>
           <!--必填,URL长度限制在256字节内-->
           <lastmod>2012-12-01</lastmod>
           <!--更新时间标签,非必填,用来表示最后更新时间-->
           <changefreq>daily</changefreq>
           <!--更新频率标签,非必填,用来告知引擎页面的更新频率 -->
           <priority>0.8</priority>
           <!--优先权标签,优先权值0.0-1.0,用来告知引擎该条url的优先级-->
       </url>
       <url>
           <loc>http://www.xxxxxx.html/000001.html</loc>
           <lastmod>2012-12-01</lastmod>
           <changefreq>daily</changefreq>
           <priority>0.8</priority>
       </url>
   </urlset>
2) XML标签说明

标签名称

属性

标签说明

标签类型

标签限制

可选/必选

changefreq 

/

标示数据更新频率

字符串

有效值为:always、hourly、daily、weekly、monthly、yearly、never

可选

lastmod

/

标示数据最新一次更新时间

日期

时间格式为yyyy-mm-dd 

可选

loc 

/

标示该条数据的存放地址

url 

最小长度1个字符最大长度256个字符以"http://"开头

必选

priority

/

标示优先值

小数

[0.0 1.0](大于等于0小于等于1,保留一位小数)例如:<   priority >0.8< priority >

可选

url 

/

url地址的开始和结束

最多出现无限次

必选

urlset 

/

urlset用来标记整个文档的开头

/

必选

2、文本格式Sitemap说明

文本格式文件每一行写入一个网址,除此之外不包含其他信息。网址必须完整,网址中不能有换行,且包括协议头(http://)

3、使用Sitemap索引文件(对多个Sitemap文件)说明
1) 索引Sitemap举例
   <?xml version="1.0" encoding="UTF-8"?>
   <sitemapindex>
     <sitemap>
       <loc>http://www.example.com/1.xml</loc>
       <lastmod>2012-12-01</lastmod>
     </sitemap>
     <sitemap>
       <loc>http://www.example.com/2.xml</loc>
       <lastmod>2012-12-01</lastmod>
     </sitemap>
   </sitemapindex>
 
2) Sitemap索引文件标签说明:

属性

是否必填项

说明

<loc> </loc>

Sitemap位置标签,标示sitemap地址位置

<lastmod> </lastmod>

可填

Sitemap修改时间标签,标示最新修改时间

<sitemap> </sitemap>

Sitemap信息说明,标示某个sitemep的信息

<sitemapindex></sitemapindex>

标示索引文件中所有sitemap的信息


Public @ 2010-11-01 16:11:51

robots

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。来源:360站

Public @ 2014-01-16 16:09:19

Sitemap 中的网址需要完整地指定吗?

在 Sitemap 中列出的网址应该是完整的网址,具有必要的协议、主机名和路径。这样可以确保搜索引擎能够正确地索引和访问您的网站或页面,并为用户提供正确的链接。如果网址不是完整的,则搜索引擎可能无法正确解析该网址,导致页面无法索引或无法正常访问。因此,为了确保最佳的 SEO 效果,建议在 Sitemap 中使用完整的网址。

Public @ 2023-04-09 05:50:19

提交Sitemap

Sitemap(站点地图)是一种文件,站长可通过该文件列出网站上的网页,将网站内容的组织结构告知搜索引擎。神马等搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取网站内容理想状况下,如果您的网站网页间关联得当,神马的网页抓取工具便能够发现其中的大多数网页。即便如此,提交站点地图仍有助于搜索引擎更加有效地抓取网站,尤其是当网站符合以下某个条件时:1.网站为新建网站且指向该网站的外部链接不多。搜索引

Public @ 2022-11-08 16:09:48

更多您感兴趣的搜索

0.562388s