BeautifulSoup 下载
https://www.crummy.com/software/BeautifulSoup/bs4/download/4.1/
本人的python 安装在I:\software\Python27\beautifulsoup4-4.1.3
按住ctrl 右键 在此处打开命令行
dir 存在 setup.py
setup.py bulid
setup.py install
验证如下: 就没有问题
# -*- coding: UTF-8 -*- ''' Created on 2016年8月1日 @author: cmcc-B100036 ''' #http://ssdfz001.iteye.com/blog/2228685 import urllib2,os,codecs from bs4 import BeautifulSoup #跟网址 http://news.qq.com/c/816guonei_1.htm url='http://news.qq.com/c/816guonei_1.htm' #存储路径 save_path='I:/software/Python27/pythonData/' save_img='text.text' save_txt='png.png' #抽取正则 reg = '<a target=\"_blank\" class=\"pic\" href=\"([^\"]*)\"><img class=\"picto\" src=\"([^\"]*)\"></a><em class=\"f14 l24\"><a target=\"_blank\" class=\"linkto\" href=\"[^\"]*\">([^</a>]*)</a></em><p class=\"l22\">([^</p>]*)</p>' #request消息头 heads = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding':'gzip, deflate, sdch', 'Accept-Language':'zh-CN,zh;q=0.8', 'Cache-Control':'max-age=0', 'Host':'news.qq.com', 'Proxy-Connection':'keep-alive', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36' } #获取网页信息 def getHtml(url): opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) urllib2.install_opener(opener) req = urllib2.Request(url) opener.addheaders = heads.items() respHtml = opener.open(req).read() return respHtml; #获取新闻列表 def getList(url): contents=[] respHtml = getHtml(url) soup = BeautifulSoup(respHtml,from_encoding="gb2312") list = soup.find_all('div','class_=Q-tpList') for x in list: contents.append(x) return contents #获取文本信息到本地 def loadText(contents): for content in contents : load(content) #下载资源 def load(content): soup = BeautifulSoup(content,from_encoding="gb2312") newsdetailname=soup.find_all('a','class_=pic').attrs["href"].get_text().replace('.htm','') newsimagpichref= soup.find_all('img','class_=picto').attrs["src"].get_text() newstitle = soup.find_all('a','class_=linkto').get_text() newscontent = soup.find_all('p','class_=112').get_text() save_path += newsdetailname; if not os.path.exists(save_path): os.mkdir(save_path) newstext = save_path+'\%s'%save_txt newsimg= save_path+'\%s'%save_img if not os.path.exists(newstext): os.mkdir(newstext) if not os.path.exists(newsimg): os.mkdir(newsimg) imgsrc= urllib2.urlopen(newsimagpichref).read() with codecs.open(newsimg,"a+", "gb2312") as fp: fp.write(imgsrc) with codecs.open(newstext,'r','gb2312') as fp: fp.write(newsimagpichref+'\t'+newstitle+'\t'+newscontent+'\t') print '------------------------------------------------------------ end one news' if __name__=="__main__": # url=raw_input("""输入目标网址\n 按回车键结束\n""") url='http://news.qq.com/c/816guonei_1.htm' contents = getList(url) loadText(contents)
package com.curiousby.python.demo; import org.python.util.PythonInterpreter; /** * @author baoyou E-mail:curiousby@163.com * @version 2016年8月1日 下午1:05:36 * desc: ... */ public class PythonByJava2 { public static void main(String[] args) { PythonInterpreter interpreter = new PythonInterpreter(); interpreter.execfile("I:\\cache\\ea-ws\\DemoJava\\conf\\newsqq.py"); } }
捐助开发者
在兴趣的驱动下,写一个免费
的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。
谢谢您的赞助,我会做的更好!
相关推荐
7. 示例代码和教程:压缩包可能还包含示例代码或教程,帮助初学者快速上手Python 2.7及其工具包的使用。 8. 文档:完整和详细的文档是开发资源的重要组成部分,它们可能包括库的API参考、使用指南以及解决问题的...
在Windows环境下,使用Python进行网页抓取和分析是一项常见的任务,尤其对于数据挖掘、网络爬虫和自动化测试等领域。在Python 2.7版本中,`httplib2`是一个非常重要的库,它提供了HTTP客户端的功能,支持HTTP/1.1...
此chm文档由github上的中文BeautifulSoup4.4文档制作而成,方便查阅。
描述中提到的“目前支持beautifulsoup的python版本很少,这次送福利了”,意味着在某个时间点,BeautifulSoup可能主要与较旧的Python版本兼容,可能是由于新版本的Python进行了重大更新,导致BeautifulSoup尚未完全...
Python beautifulsoup4包 Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包
【小米路由器mini与Python 2.7的集成】 小米路由器mini是一款受到许多用户喜爱的智能路由器,它提供了开放的系统和API,允许用户通过编程来定制和扩展其功能。Python 2.7作为广泛使用的解释型语言,因其简洁的语法...
Python 2.7是Python编程语言的一个早期版本,它在许多旧系统中仍然广泛使用,尤其是在Windows 7这样的操作系统上。对于32位系统,Python 2.7提供了与64位系统不同的二进制兼容性,使得在这些平台上运行Python程序...
中文版库 ...文档中出现的例子在Python2.7和Python3.2中的执行结果相同 你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的 项目中使用Beautiful Soup 4, 移植到BS4
BeautifulSoup是Python编程语言中的一款强大且常用的第三方库,主要用于解析HTML和XML文档。这个"beautifulsoup-zh_CN-v4.4.0.zip"压缩包包含的是BeautifulSoup库的中文版文档,版本为4.4.0,对于中文使用者来说,...
1. **Python 2.7版本**:Python 2.7是Python 2.x系列的最后一个版本,它在2010年发布,具有丰富的标准库和强大的社区支持。尽管Python 3已经成为主流,但很多遗留项目和系统仍然依赖于Python 2.7。 2. **64位支持**...
**Fiddler4_3259:Python抓包与Fiddler结合的实战指南** 在互联网开发过程中,网络请求的调试与分析是一项至关重要的任务。`Fiddler4`是一款强大的HTTP抓包工具,它可以帮助开发者查看、修改、甚至断点任何HTTP(S)...
代码使用python2.7做的爬虫 抓取51job上面的职位名,公司名,薪资,发布时间等等。 直接上代码,代码中注释还算比较清楚 ,没有安装mysql需要屏蔽掉相关代码: #!/usr/bin/python # -*- coding: UTF-8 -*- from ...
在标题"beautifulsoup for python"中,我们明确了BeautifulSoup是Python中的一个库,主要服务于网页解析。 描述提到,BeautifulSoup提供多种函数来提取指定HTML标签中的信息。这意味着它具备灵活性和易用性,能够...
标签中提到的"python"表明整个项目的核心是Python编程,这可能包括网络请求库(如`requests`)、数据解析库(如`BeautifulSoup`)以及可能的数据库交互模块(如`sqlite3`或`pymysql`)。 项目中包含的两个jsp测试...
### Python模块 - Beautifulsoup中文手册知识点详解 #### 一、BeautifulSoup简介 - **定义**:Beautiful Soup(简称“BS”)是Python语言的一个库,主要用于解析HTML或XML文档,并从中提取所需的数据。 - **作用**...
离线安装python Beautifulsoup4库
python爬虫-beautifulsoup实践代码python爬虫-beautifulsoup实践代码
一个简单的python爬虫,原生python+BeautifulSoup 原生python+BeautifulSoup4 python3.4版本 所有脚本要和spider.py放到同一目录下 自行下载BeautifulSoup4 的类库 window下 pip install bs4即可 爬取知乎的爬虫 ...
**Python网络爬虫基础** ...尽管Python 3已成为主流,但理解Python 2.7的爬虫开发仍然对学习现代Python爬虫技术有帮助。随着Python 2的逐渐淘汰,建议将项目升级到Python 3,以利用其最新特性和库。