import db,re,os
import socket
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
def mkdir(path=''):
base = '.'
newpath = base + '\\'+path
if (os.path.exists(newpath)):
pass
else:
os.mkdir(newpath)
socket.setdefaulttimeout(600)
url="http://www.example.com"
text2 = urlopen(url).read()
text = BeautifulSoup(text2).prettify()
or
text2 = urlopen('http://www.example.com/').read()
text = BeautifulSoup(text2)
[s.extract() for s in text('script')] #去除 危险的script
[s.extract() for s in text('style')] #去除样式
print text.prettify()
==========================
安装
wget http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz
tar zxf
cd 目录
python setup.py install
分享到:
相关推荐
主要使用Python库beautifulsoap以及urllib库对网站进行成绩爬取,通过lxml进行获取到的xml数据、xml节点树到等进行节点解析后准确获取到想要的数据。
使用Python的BeautifulSoap函数爬取网易新闻网的新闻
Python 社区中有很多成熟的解决方案,如使用代理池解决 IP 被封问题,利用 Selenium 或 Puppeteer 处理动态加载,以及通过模拟登录获取私有数据。这些技术和 OffersCrawler 结合,能够构建出更强大的爬虫系统。 ...
1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,...
【作品名称】:基于Django框架的校园...BeautifulSoap4==4.6.0 dwebsocket==0.4.2 django-admin默认 用户名:admin 密码:wasdwasd 数据库默认 数据库名:stcdb 用户名:root 密码:123456 数据库迁移指令 migrate
BeautifulSoap4==4.6.0 dwebsocket==0.4.2 django-admin默认 用户名:admin 密码:wasdwasd 数据库默认 数据库名:stcdb 用户名:root 密码:123456 数据库迁移指令 migrate 【资源声明】:本资源作为“参考资料”...
scapring_from_html.ipynb 笔记本使用BeautifulSoap解析html网页中的信息,并将这些信息写入tsv文件中。 检索到的信息是: 标题作者系列等级被授予等级的数量评论数整个情节页数(另存为Number