SiteMap生成工具

准确生成无垃圾URL的站点地图
生成连续编号的URL
生成连续编号的URL(参数版)
提取页面的全部URL
提取页面的全部URL(参数版)
TXT转XML

使用说明


  • 1. 生成连续编号的URL

    URL前缀:https://www.foodwake.cn/food/
    序号开始:1
    序号结束:1000

    生成的sitemap.txt的内容:

    https://www.foodwake.cn/food/1
    https://www.foodwake.cn/food/2
    https://www.foodwake.cn/food/3
    ……
    https://www.foodwake.cn/food/1000

  • 2. 生成连续编号的URL(参数版)

    基础URL:https://www.foodwake.cn/sort/purpose/@var/0
    序号开始:1
    序号结束:300
    @var是变量占位符。

    生成的sitemap.txt的内容:

    https://www.foodwake.cn/sort/purpose/1/0
    https://www.foodwake.cn/sort/purpose/2/0
    https://www.foodwake.cn/sort/purpose/3/0
    ……
    https://www.foodwake.cn/sort/purpose/300/0

  • 3. 提取页面的全部URL

    指定URL:https://www.foodwake.cn/
    提取在指定URL上找到的全部URL。

    生成的sitemap.txt的内容:

    https://www.foodwake.cn
    https://www.foodwake.cn/category/food-class/0
    https://www.foodwake.cn/category/purpose-class-letter
    ……

  • 4. 提取页面的全部URL(参数版)

    基础URL:https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=@var
    序号开始:1
    序号结束:18
    @var是变量占位符。
    限定前缀:https://www.foodwake.cn/food/
    如果不限定前缀,则会提取在:
    https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=1
    https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=2
    https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=3
    ……
    https://www.foodwake.cn/sort/sort-single-nutrition/zu?page=18
    这18个URL上的找到的全部URL,并将其保存到sitemap文件中。
    如果限定前缀为https://www.foodwake.cn/food/,则只有以https://www.foodwake.cn/food/开头的URL才会被保存到sitemap文件中。
    路径表达:如果你要提取的页面中的URL都是http或https开头的,则选择绝对路径(默认)。否则,选择相对路径(比如,你要提取的页面中的URL是/开头的根相对路径)。
    基准URL:当你选择相对路径时,你需要指定基准URL,以便拼接出绝对路径。基准URL,也称根URL,比如,https://www.foodwake.cn/。

    生成的sitemap.txt的内容:

    https://www.foodwake.cn/food/824
    https://www.foodwake.cn/food/5
    https://www.foodwake.cn/food/335
    ……

    使用技巧:如果你只想提取一个页面上的URL,但又想使用限定前缀功能,你可以如下设置:
    基础URL:https://www.foodwake.cn/sort/sort-single-nutrition/zu
    序号开始:0
    序号结束:0
    限定前缀:https://www.foodwake.cn/food/

  • 5. TXT转XML。

    将txt格式的sitemap文件转换成xml格式的sitemap文件。


  • 开发这套sitemap工具的原因

    输入一个网址(域名),就自动生成sitemap的工具有不少,免费与付费的都有。但这些工具有一个共同点就是生成的sitemap中包含大量的垃圾URL和无效URL,其数量远远超过真正有效的URL。同时,一些真正有效的URL反而由于爬取算法或其他原因导致无法被发现。搜索引擎在处理这样的sitemap时,过多的时间会投入在处理垃圾URL上,使得真正有效的URL不能得到及时的处理和重视。

    因此,我开发了这套sitemap工具。这套工具由五个功能组成。前四种功能,可以让你生成或提取几乎所有网站中存在的几乎所有类型的URL。你可以将生成的多个sitemap文件的内容复制粘贴到同一个sitemap.txt文件中,然后提交给搜索引擎。如果搜索引擎要求提交xml格式的sitemap文件,你可以使用第五种功能来将txt格式的sitemap文件转换成xml格式的sitemap文件。

    尽管xml格式的sitemap可以提供更新频率和优先级等所谓的额外信息,但目前几乎所有的搜索引擎都支持并鼓励提交txt格式的sitemap。原因是sitemap中的额外信息并不被搜索引擎采纳,搜索引擎完全基于其自身对URL内容的判断来决定其更新频率和重要性。此外,解析xml格式对搜索引擎而言要占用更多的服务器开销。因此,提交txt格式的sitemap是趋势。

    总之,使用这套五功能sitemap工具集,可以让你准确地生成无垃圾URL的站点地图。