首页技术文章正文

如何使用Python将sitemap.xml转为sitemap.txt?

更新时间:2021-05-11 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif

网站地图(SiteMap),也叫站点地图,是把网站中所有页面的链接都放在网页上的网页。搜索蜘蛛很喜欢网站地图,SiteMap是网站所有链接的容器。许多网站连通的层次比较深,蜘蛛很难抓到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清楚了解网站的结构,网站地图一般被命名为sitemap,为搜索引擎蜘蛛指引方向,增加对网站重要内容页面的收录。

网站地图格式一般是.xml格式的居多,那么如何将.xml文件转为.txt格式呢?下面我们通过Python来实现。

# 导入requests模块,用于获取网站地图源码
import requests
# 导入正则表达式模块,用于在xml网站地图中获取链接地址
import re

# 获取传智教育网站地图源码
sitemap_xml = requests.get('http://www.itcast.cn/sitemap/sitemap.xml').text
# 使用正则表达式匹配网站地图中的链接
url = re.findall(r'<loc>(.*)</loc>', sitemap_xml)
# 使用join()函数在每条链接钱前面加个换行符
url_line = '\n'.join(str(url_one) for url_one in url)
# 将获取的链接保存为sitemap.xml
open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)

xml网站地图转为txt



猜你喜欢:

Python爬虫难学吗?学会需要多久?

Python的标准模块:sys、os、random和time

Python爬虫支持的网页解析技术有哪些?

黑马程序员python+大数据培训课程

分享到:
在线咨询 我要报名
和我们在线交谈!