`
GavinHsueh
  • 浏览: 70904 次
文章分类
社区版块
存档分类
最新评论

Python3分析sitemap.xml抓取导出全站链接

阅读更多

 

 最近然之OA网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出。

首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的。

下面是python 3代码,将里面的链接地址换成你自己的网址即可:

 

 

#coding=utf-8
import urllib
import urllib.request import re
url='http://www.ranzhi.org/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://www.ranzhi.org.*?\.html)')
big=re.findall(r,html)
for i in big:
    print(i)
    op_xml_txt=open('xml.txt','a')
    op_xml_txt.write('%s\n'%i)

 

我们能来看一下运行结果:

导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然我们也可以使用更快的主动推送方式,因为我的然之网站是用PHP+mysql开发的,所以我们这里使用PHP脚本将上面抓取的链接再处理下,然后主动推送给百度,一遍加快爬虫抓取时间。

上面1是你的站点的主动推送API,这个可以在百度站长平台获取;2是要主动推送的网站地址,这里就可以用到我们上面抓取的全站链接了。将链接地址整理放到该数组中,运行一下个这个PHP脚本,就可以了。一键提交,及高效便捷,又能缩短爬虫爬去时间,有助于网站页面收录。

 

我们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂工作间变化,有助于提升效率,如果大家在操作过充中有何问题可以一起分享交流讨论。

更多技术文章,欢迎关注公众号【小薛建站】

分享到:
评论

相关推荐

    利用Python3分析sitemap.xml并抓取导出全站链接详解

    折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现...

    利用Python脚本生成sitemap.xml的实现方法

    Python脚本生成Sitemap.xml是网站优化中常见的一项任务,它可以帮助搜索引擎更好地索引和理解网站的结构。这里我们将深入探讨如何使用Python的lxml库来实现这一目标。lxml库是一个强大的XML和HTML处理库,它提供了...

    python27_d.lib python27_d.dll

    标题“python27_d.lib python27_d.dll”提及的是两个关键文件,它们是Python 2.7.6版本的调试库文件。在解释这些文件之前,我们需要理解Python的版本和调试模式。 Python有两个主要版本:Python 2.x和Python 3.x。...

    Python网页抓取讲解.pptx

    Python 网页抓取讲解 Python 网页抓取是指使用 Python 语言从互联网上抓取数据的过程。该技术广泛应用于数据挖掘、机器学习、自然语言处理等领域。下面是 Python 网页抓取的详细讲解: 一、为什么需要网页抓取 ...

    python xml.etree.ElementTree遍历xml所有节点实例详解

    ### Python 使用 `xml.etree.ElementTree` 遍历 XML 所有节点的详细解析 在本篇文章中,我们将深入探讨如何使用 Python 的内置库 `xml.etree.ElementTree` 来遍历 XML 文件中的所有节点,并提取所需的信息。通过一...

    python_elementt_xml.zip_python xml_xml解析 python

    在Python编程语言中,XML(eXtensible Markup Language)是一种常见的数据交换格式,用于存储结构化数据。处理XML文件时,Python提供了多种库,其中`ElementTree`是Python标准库的一部分,它提供了高效的XML解析和...

    androidmanifest.xml分析工具

    androidmanifest.xml分析工具,将文件与androidmanifest.xml放在同一目录下运行python XMLanalysis.py即可

    python根据excel表修改xml.rar

    标题 "python根据excel表修改xml.rar" 涉及到的知识点主要集中在使用Python编程语言处理Excel文件(xlsx)并以此来修改XML文件。这里我们可以深入探讨这些技术及其应用。 首先,Python是一种广泛用于数据处理和自动...

    Android String文件导出excel表格powershell脚本

    支持多个strings.xml导出excel,暂不支持特殊标签如:<xliff:g id="NAME">%1$s。 使用说明: 打开powershell,进入脚本当前目录,执行命令 ./string2excel "strings.xml所在目录" "excel输出路径" 示范: ./string2...

    python解析xml文件

    ### Python 解析 XML 文件 在Python中解析XML文件是一种常见的需求,特别是在处理配置文件、数据交换格式以及其他需要结构化数据的应用场景中。本文将详细介绍如何使用两种流行的方法——`MiniDom`和`ElementTree`...

    python文件对比 xml、excel

    在Python编程中,处理XML和Excel文件是常见的任务,尤其在数据处理和分析领域。XML(eXtensible Markup Language)是一种结构化数据格式,常用于存储和交换数据,而Excel则是Microsoft Office套件中的一个应用程序,...

    机器学习大作业基于酒店评论抓取的情感分析python源码.zip

    机器学习大作业基于酒店评论抓取的情感分析python源码.zip机器学习大作业基于酒店评论抓取的情感分析python源码.zip机器学习大作业基于酒店评论抓取的情感分析python源码.zip机器学习大作业基于酒店评论抓取的情感...

    Python和XML编程指南: Python and XML.chm

    Python和XML编程指南: Python and XML.chm

    python处理XML文档

    Python是一种功能强大的编程语言,广泛应用于数据处理和分析。在处理XML文档时,Python提供了多种库,其中ElementTree是Python标准库中的一个轻量级且高效的XML解析器,非常适合处理XML数据。本篇文章将深入探讨如何...

    python爬虫项目——自动批量抓取m3u8网页视频

    Python爬虫技术在IT行业中广泛应用于数据挖掘和自动化任务,特别是在网络视频资源的获取上。本项目专注于自动批量抓取m3u8网页视频,这是一个非常实用的技能,特别是对于那些需要收集网络视频数据的人来说。m3u8是一...

    基于Scrapy框架的www.mzitu.com全站图片爬虫设计源码

    本项目为基于Scrapy框架开发的www.mzitu.com全站图片爬虫设计源码,总计包含26个文件,涵盖13个Python编译文件(.pyc)、7个Python源代码文件(.py)、3个XML配置文件(.xml)、1个IDE配置文件(.iml)、1个Markdown...

    python3参考手册.chm

    python3参考手册.chm shouce.ren

    基于python的行人与车辆检测和跟踪实现(HOG+SVM/HAAR)

    文件里面有我提到的视频,cars.xml文件和myhaar.xml文件。需要的Python库在requirements.txt有提及: cmake==3.12.0 dlib==19.16.0 numpy==1.15.3 opencv-python==3.4.3.18 这些是最低版本,可以比这个高。我是用...

Global site tag (gtag.js) - Google Analytics