使用说明
-
1. 生成连续编号的URL
URL前缀:https://www.foodwake.cn/food/
序号开始:1
序号结束:1000
生成的sitemap.txt的内容:
https://www.foodwake.cn/food/1
https://www.foodwake.cn/food/2
https://www.foodwake.cn/food/3
……
https://www.foodwake.cn/food/1000 -
2. 生成连续编号的URL(参数版)
基础URL:https://www.foodwake.cn/sort/purpose/@var/0
序号开始:1
序号结束:300
@var是变量占位符。生成的sitemap.txt的内容:
https://www.foodwake.cn/sort/purpose/1/0
https://www.foodwake.cn/sort/purpose/2/0
https://www.foodwake.cn/sort/purpose/3/0
……
https://www.foodwake.cn/sort/purpose/300/0 -
3. 提取页面的全部URL
指定URL:https://www.foodwake.cn/
提取在指定URL上找到的全部URL。生成的sitemap.txt的内容:
https://www.foodwake.cn
https://www.foodwake.cn/category/food-class/0
https://www.foodwake.cn/category/purpose-class-letter
…… -
4. 提取页面的全部URL(参数版)
基础URL:https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=@var
序号开始:1
序号结束:18
@var是变量占位符。
限定前缀:https://www.foodwake.cn/food/
如果不限定前缀,则会提取在:
https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=1
https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=2
https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=3
……
https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=18
这18个URL上的找到的全部URL,并将其保存到sitemap文件中。
如果限定前缀为https://www.foodwake.cn/food/,则只有以https://www.foodwake.cn/food/开头的URL才会被保存到sitemap文件中。
路径表达:如果你要提取的页面中的URL都是http或https开头的,则选择绝对路径(默认)。否则,选择相对路径(比如,你要提取的页面中的URL是/开头的根相对路径)。
基准URL:当你选择相对路径时,你需要指定基准URL,以便拼接出绝对路径。基准URL,也称根URL,比如,https://www.foodwake.cn/。
生成的sitemap.txt的内容:
https://www.foodwake.cn/food/824
https://www.foodwake.cn/food/5
https://www.foodwake.cn/food/335
……使用技巧:如果你只想提取一个页面上的URL,但又想使用限定前缀功能,你可以如下设置:
基础URL:https://www.foodwake.cn/sort/sort-single-nutrition/zu
序号开始:0
序号结束:0
限定前缀:https://www.foodwake.cn/food/ -
5. TXT转XML。
将txt格式的sitemap文件转换成xml格式的sitemap文件。
-
开发这套sitemap工具的原因
输入一个网址(域名),就自动生成sitemap的工具有不少,免费与付费的都有。但这些工具有一个共同点就是生成的sitemap中包含大量的垃圾URL和无效URL,其数量远远超过真正有效的URL。同时,一些真正有效的URL反而由于爬取算法或其他原因导致无法被发现。搜索引擎在处理这样的sitemap时,过多的时间会投入在处理垃圾URL上,使得真正有效的URL不能得到及时的处理和重视。
因此,我开发了这套sitemap工具。这套工具由五个功能组成。前四种功能,可以让你生成或提取几乎所有网站中存在的几乎所有类型的URL。你可以将生成的多个sitemap文件的内容复制粘贴到同一个sitemap.txt文件中,然后提交给搜索引擎。如果搜索引擎要求提交xml格式的sitemap文件,你可以使用第五种功能来将txt格式的sitemap文件转换成xml格式的sitemap文件。
尽管xml格式的sitemap可以提供更新频率和优先级等所谓的额外信息,但目前几乎所有的搜索引擎都支持并鼓励提交txt格式的sitemap。原因是sitemap中的额外信息并不被搜索引擎采纳,搜索引擎完全基于其自身对URL内容的判断来决定其更新频率和重要性。此外,解析xml格式对搜索引擎而言要占用更多的服务器开销。因此,提交txt格式的sitemap是趋势。
总之,使用这套五功能sitemap工具集,可以让你准确地生成无垃圾URL的站点地图。