站内搜索数据提交流程和格式说明
- 威海百度搜索资源平台 威海百度搜索资源平台
- 1883
大纲
站内搜索数据提交流程
什么是XML数据文件?
什么是sitemap索引文件?
文件大小的限制?
如何设置更新周期?
数据提交后,多久能被百度抓取?
提交的数据都会被收录吗?
站内搜索数据格式说明
数据文件基本结构
固定标签部分
扩展标签部分
数据格式类型
通用-百度站内搜索数据提交模板_0
小说
影视
站内搜索数据提交流程
站内搜索数据提交包含以下4个步骤:
站内搜索数据提交流程.PNG
常见问题:
1 什么是XML数据文件?
单个XML数据格式样例如下:
<?xml version="1.0" encoding="utf-8"?>
XML文件需以utf-8编码
<urlset>
必填,标识整个链接集合的开始和结束
<url>
必填,每条数据都用一对<url>标签标识
<loc>http://example.com/.../page1.html</loc>
必填,页面地址,长度不得超过256字节
<lastmod>2013-08-12</lastmod>
标识该页面的最后更新时间
<changefreq>daily</changefreq>
标识此页面的更新频率
<priority>0.8</priority>
标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间
<data>
必填,标识扩展标签的开始和结束
<display>
必填,紧邻<data>,扩展标签都包含在<display></display>里
</display>
必填,标签闭合
</data>
必填,标签闭合
</url>
必填,标签闭合
</urlset>
必填,标签闭合
上述XML数据文件向百度提交了一个url:http://example.com/.../page1.html。
若有多条url,则按照上述格式重复<url></url>之间的片断,列明所有url地址,打包到一个XML文件进行提交。
2 什么是sitemap索引文件?
如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:
<?xml version="1.0" encoding="UTF-8" ?>
XML文件需以utf-8编码
<sitemapindex>
必填,标识sitemap索引文件
<sitemap>
必填,每个数据文件都用一对<sitemap>标签标识
<loc>http://example.com/.../aaa.xml</loc>
必填,标识数据文件的位置
<lastmod>2013-08-20</lastmod>
标识数据文件的最近一次修改时间
</sitemap>
必填,标签闭合
</sitemapindex>
必填,标签闭合
若有多个XML数据文件,则按照上述格式重复<sitemap></sitemap>之间的片断,列明所有XML数据文件地址,打包到一个sitemap索引文件进行提交。
3 文件大小的限制?
每个XML数据文件包含的网址不得超过 5 万个,且单个文件大小不得超过 10 MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免网络服务器因传输非常大的文件而遇到麻烦。
4 如何设置更新周期?
百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。
请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。
5 数据提交后,多久能被百度抓取?
数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。
当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。
6 提交的数据都会被收录吗?
站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。
站内搜索数据格式说明
数据文件基本结构
站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。
固定标签部分
包含<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>、<data>、<display>共8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。
标签名称
属性类型
属性描述
优先级
标签限制
urlset
/
标记整个文档的开始和结束
必选
/
url
/
标记每条信息的开始和结束
必选
1个urlset可以包含很多url
loc
url
该条数据的存放地址
必选
以"http://"开头
最大长度256个字符
lastmod
日期
该条数据的最新一次更新时间
可选
格式为YYYY-MM-DD
changefreq
字符串
该条数据的更新频率
可选
有效值为:always、hourly、daily、weekly、monthly、yearly、never
priority
小数
指定此链接相对于其他链接的优先权比值
可选
数值范围:0.0~1.0
data
/
标记扩展数据的开始和结束
必选
/
display
/
标记扩展数据中用作展现的字段的开始和结束
必选
/
注意事项:
XML数据文件必须使用UTF-8编码。
所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。
标签大小写敏感,请务必细心区分。
url中不能含有中文字符。
lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。
扩展标签部分
不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。
数据格式类型
站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。
站内搜索的数据格式包含以下类型,后续还会根据需要再添加:
通用-百度站内搜索数据提交模板_0
影视
小说
音乐(建设中)
商品(建设中)
招聘(建设中)
旅游(建设中)
图书资料(建设中)
问答(建设中)
温馨提示:
由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名,
“通用”类别的表示方法为:<actor name="黄晓明" url="http://example.com/path"/>
其他类别的表示方法为:<actor><name>黄晓明</name><url>http://example.com/path</url></actor>
通用类型-百度站内搜索数据提交模板_0
通用类型的摘要示意图.PNG
图1通用类型的摘要示意图(不代表最终效果)
具体格式说明:
注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置》。
中文标签
英文标签
子标签
属性类型
属性描述&举例
优先级
个数限制
可筛选
可排序
标题
title
/
字符串
建议填写,搜索系统优先选用该title
可选
1
内容
content
/
字符串
如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差
可选
1
标签
tag
/
字符串
可以是内容主题、领域、分类等的简短说明文字;最多可定义20个
可选
20
是
发布时间
pubTime
/
日期
格式为YYYY-MM-DDThh:mm:ss
只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效
注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T”
可选
1
是
面包屑
breadCrumb
--
/
用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级
假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签
可选
4
层级名称
title
字符串
常常体现为频道名或版块名
前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人”
可选
1
是
层级首页地址
url
url
前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/
可选
1
是
缩略图
thumbnail
--
/
支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现
每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现
可选
10
缩略图地址
loc
url
可选
1
图片
image
--
/
支持格式gif、jpg、jpeg、png
每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现
可选
100
图片存放地址
loc
url
可选
1
图片标题
title
字符串
如果没有标题,也可用于填写该图片的标签等
可选
1
视频
video
--
/
每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现
可选
100
视频地址
loc
url
包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器
前者例如:
http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A
-5CDB-D8E5-BEB7-C15C62B686F2.flv
后者例如:
http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html
可选
1
视频标题
title
字符串
例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑”
可选
1
视频缩略图地址
thumbnail_loc
url
例如上述视频的缩略图地址为
http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB
可选
1
视频时长
duration
整数
单位:秒
可选
1
作者
author
--
/
常见于web2.0页面,例如论坛帖子作者、博客作者
可选
1
作者昵称
nickname
字符串
可选
1
作者个人首页地址
url
url
该url指向的页面通常提供作者的个人信息介绍
可选
1
作者头像地址
thumbnail
url
可选
1
回复数
replyCount
/
整数
通常表示论坛贴子回帖数,或博客评论数
可选
1
是
是
属性
property
/
字符串
主要用于帖子,例如精华、热门、置顶、最新等属性 ,每个网页最多可以提交3个内容属性
可选
3
是
价格
price
--
/
可选
1
现价
new
小数
商品价格或打折优惠后的现价
可选
1
是
是
原价
old
小数
打折优惠前的价格,如果有的话
可选
1
是
是
折扣
discount
--
/
折扣优惠信息
可选
1
折扣值
value
小数
折扣值
可选
1
是
是
折扣描述
description
字符串
折扣优惠介绍
可选
1
评价
review
--
/
评价信息
常用于商品、活动、影视著作等对象
可选
1
评分值
rating
小数
可选
1
是
是
评分基数
rating_base
小数
评分的基数值或“满分”值
各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%)
站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的
可选
1
评分人数
count
整数
评分人数
可选
1
是
是
位置
location
--
/
常用于标识机构、商品或者活动
可选
1
地址
address
字符串
可选
1
电话
tel
字符串
可选
1
地域
area
字符串
地域范围
例如“北京市”“海淀区”“王府井”
主要用于地域筛选
可选
1
是
坐标
coordinate
字符串
坐标
采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标
可选
1
时间
time
--
/
通常用于标识活动;区别于网页内容发布时间
可选
1
开始时间
startDate
日期
开始时间
格式为YYYY-MM-DDThh:mm:ss
可选
1
是
结束时间
endDate
日期
结束时间
格式为YYYY-MM-DDThh:mm:ss
可选
1
是
数据标记示例:
<?xml version="1.0"encoding="UTF-8"?>
<urlset>
<url>
<loc>http://ky.kaoyan.com/04/467393/</loc>
<lastmod>2013-04-10</lastmod>
<changefreq>always</changefreq>
<priority>0.5</priority>
<data>
<display>
<title>【写给即将上战场的你们】努力为王,心态为皇</title>
<content>略</content>
<tag>考研复习</tag><tag>经验</tag>
<pubTime>2012-12-04T11:20:13</pubTime>
<breadCrumb title="考研加油站" url="http://ky.kaoyan.com/"/>
<breadCrumb title="考研政治" url="http://www.kaoyan.com/s/zhengzhi"/>
<thumbnailloc="http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg"/>
<imageloc="http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg" title="七个最常用的泰勒展开式"/>
<videoloc="http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html" title="考研访谈:名师陈文灯教授数学复习指导答疑 "thumbnail_loc="http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB"duration="217509"/>
<!-- 视频非实际页面内数据,为示意而构造 -->
</display>
</data>
</url>
<url>
…
</url>
</urlset>
小说类型:
小说类的摘要示意图
具体格式说明:
中文属性标签英文属性标签属性类型需求对应优先级重复次数举例
作品名字nameText作品的名字必选字段1半梦半醒
作者authorPerson作品的作者必选字段1作者字段,包含3部分,具体见下方。
作品配图imageURL展现的时候会用到强烈建议不限
作品简介descriptionText一般的文本强烈建议1小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待!
分类genreText作品的分类,方便书籍间的类聚必选字段1言情
完成字数wordCountNumber作品的总完成字数强烈建议119221
阅读链接urlURL作品的阅读链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html
更新状态updateStatusText完结还是更新中必选字段1已完结
阅读费用trialStatusText免费或者是前多少章免费,或收费必选字段1免费
周点击weeklyClickNumber最近一周的点击数量强烈建议150000
月点击monthlyClickNumber最近一个月的点击数量强烈建议1150000
总点击totalClickNumber作品的总点击数量必选字段13197509
最新章节newestChapterChapter作品的最新章节必选字段1
章节chapterChapter作品的章节必选字段不限
更新时间dateModifiedDate作品的更新时间必选字段12012/10/5
作者 - author
作者名称nameText作者的名称,可能是姓名、笔名或ID必选字段1zhujiaguo1986
作者简介descriptionText作者的简介强烈建议1朱家果,男,80后知名作家、诗人。
网页链接urlURL作者的网页链接,可能是博客或者个人主页可选字段1http://blog.sina.com.cn/zhujiaguo2007
最新章节 - newestChapter
所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒
最新章节标题headlineText最新章节的标题必选字段1未名湖畔
最新章节链接urlURL最新章节页面的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html
更新时间dateModifiedDate最新章节的更新时间必选字段12012/10/5
章节 - chapter
所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒
章节标题headlineText章节的标题必选字段1欢畅一日
章节内容acticleBodyText给用户展现最新内容强烈建议1刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。
章节链接urlURL章节的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html
更新时间dateModifiedDate章节的更新时间强烈建议1
电影类型:
影视-电影类的摘要示意图.PNG
图2影视-电影类的摘要示意图(不代表最终效果)
具体格式说明:
“属性类型”说明
1. 含有子标签的属性类型:Person、AggregateRating、VideoObject、InTheaters。子标签内容详见下方各个分支说明。
2. 时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6个月4天12小时30分5秒”。时间格式说明详见:ISO8601。
3. Number支持各种数字类型,例如整数和小数。
“出现次数”说明
1. 不限次数的情况下,用多组同名标签来表达多个值,例如:<genre>爱情</genre><genre>青春</genre>。
No.
中文标签
英文标签
属性类型
属性描述
优先级
出现次数
举例
可展现
可筛选
可排序
1
名称
name
Text
电影名称
必选
1
<name>中国合伙人</name>
是
2
别名
alias
Text
电影别名
可选
不限
<alias>中国先生</alias>
是
3
海报
image
URL
电影海报的链接
强烈建议
不限
<image>http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg</image>
是
4
描述
description
Text
作品的简介
必选
1
<description>从1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。</description>
是
5
类型
genre
Text
通常指作品本身的分类属性
必选
不限
<genre>喜剧</genre>
是
是
6
演员
actor
Person
演员或动画片中的配音演员
必选
不限
<actor>
<name>邓超</name>
<url>http://people.mtime.com/1256584/</url>
</actor>
是
7
导演
director
Person
电影导演,包括执行导演等
必选
不限
<director>
<name>陈可辛</name>
<url>http://people.mtime.com/892817/</url>
</director>
是
8
编剧
author
Person
电影等的编剧
可选
不限
<author>
<name>周智勇</name>
</author>
是
9
内容语言
inLanguage
Text
电影对白主题语言
必选
1
<inLanguage>中文</inLanguage>
是
10
地区
contentLocation
Text
影片的制作地区
必选
不限
<contentLocation>中国</contentLocation>
是
是
11
上映信息
premiere
PremiereInfo
电影上映的有关信息
必选
不限
<premiere>
<datePublished>2013-05-17</datePublished>
<publishLocation>中国</publishLocation>
<duration>PT112M</duration>
</premiere>
是
是
是
12
摘要
abstract
Text
显示在网页中的摘要数据
强烈建议
1
略
13
综合评价
aggregateRating
AggregateRating
用户综合评价
必选
1
<aggregateRating>
<ratingValue>8</ratingValue>
<bestRating>10</bestRating>
</aggregateRating>
是
是
14
预告片
trailer
VideoObject
预告片信息
强烈建议
不限
<trailer>
<name>钢铁侠3 中国版剧场预告片</name>
<url>http://movie.mtime.com/91881/trailer/43508.html</url>
</trailer>
15
评论数量
commentNum
Number
用户评论、意见的数量,表达自己的观点,不一定和作品相关
强烈建议
1
<commentNum>23</commentNum>
是
16
获奖信息
awards
Text
电影的获奖信息
强烈建议
不限
<adwards>金马奖XXX</adwards>
是
演员 - actor
1
演员姓名
name
Text
演员的姓名
必选
1
<name>邓超</name>
是
2
页面链接
url
URL
演员页面的URL链接
强烈建议
1
<url>http://people.mtime.com/1256584/</url>
3
角色名称
role
Text
角色的姓
来源:百度搜索资源平台