`
knight_black_bob
  • 浏览: 850288 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

BeautifulSoup4.4 python 2.7 抓包 qq news(代码目前没有跑起来???)

阅读更多

 


BeautifulSoup 下载
https://www.crummy.com/software/BeautifulSoup/bs4/download/4.1/

本人的python 安装在I:\software\Python27\beautifulsoup4-4.1.3
按住ctrl 右键 在此处打开命令行
dir  存在 setup.py

 

setup.py bulid

setup.py install

 

 

验证如下: 就没有问题

 

 

# -*- coding: UTF-8 -*-  
'''
Created on 2016年8月1日

@author: cmcc-B100036
'''
 
#http://ssdfz001.iteye.com/blog/2228685


import  urllib2,os,codecs  
from bs4 import BeautifulSoup  
#跟网址 http://news.qq.com/c/816guonei_1.htm
url='http://news.qq.com/c/816guonei_1.htm'
#存储路径
save_path='I:/software/Python27/pythonData/'
save_img='text.text'
save_txt='png.png'
#抽取正则
reg = '<a target=\"_blank\" class=\"pic\" href=\"([^\"]*)\"><img class=\"picto\" src=\"([^\"]*)\"></a><em class=\"f14 l24\"><a target=\"_blank\" class=\"linkto\" href=\"[^\"]*\">([^</a>]*)</a></em><p class=\"l22\">([^</p>]*)</p>'
#request消息头
heads = { 
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Host':'news.qq.com',
'Proxy-Connection':'keep-alive',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
}

#获取网页信息
def getHtml(url):
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
    urllib2.install_opener(opener) 
    req = urllib2.Request(url)
    opener.addheaders = heads.items()
    respHtml = opener.open(req).read()
    return respHtml;

#获取新闻列表
def getList(url):
    contents=[]
    respHtml = getHtml(url)
    soup = BeautifulSoup(respHtml,from_encoding="gb2312")
    list = soup.find_all('div','class_=Q-tpList')
    for x in list:
        contents.append(x)
    return contents
#获取文本信息到本地
def loadText(contents):
    for content in contents :
        load(content)
#下载资源
def load(content): 
    soup = BeautifulSoup(content,from_encoding="gb2312")
    newsdetailname=soup.find_all('a','class_=pic').attrs["href"].get_text().replace('.htm','')
    newsimagpichref= soup.find_all('img','class_=picto').attrs["src"].get_text() 
    newstitle = soup.find_all('a','class_=linkto').get_text() 
    newscontent = soup.find_all('p','class_=112').get_text() 
    save_path  += newsdetailname; 
    if not os.path.exists(save_path):
        os.mkdir(save_path) 
    newstext = save_path+'\%s'%save_txt
    newsimg= save_path+'\%s'%save_img
    if not os.path.exists(newstext):
        os.mkdir(newstext)
    if not os.path.exists(newsimg):
        os.mkdir(newsimg) 
    imgsrc= urllib2.urlopen(newsimagpichref).read() 
    with  codecs.open(newsimg,"a+", "gb2312") as fp:
        fp.write(imgsrc)
    with codecs.open(newstext,'r','gb2312') as fp:
        fp.write(newsimagpichref+'\t'+newstitle+'\t'+newscontent+'\t')  
    print '------------------------------------------------------------ end one news' 
      
if __name__=="__main__":
#     url=raw_input("""输入目标网址\n       按回车键结束\n""")
     url='http://news.qq.com/c/816guonei_1.htm'
     contents = getList(url)
     loadText(contents)

 

 

 

 

package com.curiousby.python.demo;

import org.python.util.PythonInterpreter;

/**
 * @author baoyou E-mail:curiousby@163.com
 * @version 2016年8月1日 下午1:05:36 
 * desc: ...
 */
public class PythonByJava2 {

	
	public static void main(String[] args) {
		PythonInterpreter interpreter = new PythonInterpreter();  
        interpreter.execfile("I:\\cache\\ea-ws\\DemoJava\\conf\\newsqq.py");   
	}

}

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

捐助开发者

在兴趣的驱动下,写一个免费的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。



 
 
 谢谢您的赞助,我会做的更好!

 

 

 

 

 

  • 大小: 25.5 KB
  • 大小: 45.5 KB
  • 大小: 6.8 KB
分享到:
评论

相关推荐

    python2.7及所需工具包

    7. 示例代码和教程:压缩包可能还包含示例代码或教程,帮助初学者快速上手Python 2.7及其工具包的使用。 8. 文档:完整和详细的文档是开发资源的重要组成部分,它们可能包括库的API参考、使用指南以及解决问题的...

    在windows下python2.7抓包分析页面需要库httplib2

    在Windows环境下,使用Python进行网页抓取和分析是一项常见的任务,尤其对于数据挖掘、网络爬虫和自动化测试等领域。在Python 2.7版本中,`httplib2`是一个非常重要的库,它提供了HTTP客户端的功能,支持HTTP/1.1...

    中文BeautifulSoup4.4.chm

    此chm文档由github上的中文BeautifulSoup4.4文档制作而成,方便查阅。

    能支持beautifulsoup的python版本

    描述中提到的“目前支持beautifulsoup的python版本很少,这次送福利了”,意味着在某个时间点,BeautifulSoup可能主要与较旧的Python版本兼容,可能是由于新版本的Python进行了重大更新,导致BeautifulSoup尚未完全...

    Python beautifulsoup4包

    Python beautifulsoup4包 Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包

    小米路由器mini python 2.7

    【小米路由器mini与Python 2.7的集成】 小米路由器mini是一款受到许多用户喜爱的智能路由器,它提供了开放的系统和API,允许用户通过编程来定制和扩展其功能。Python 2.7作为广泛使用的解释型语言,因其简洁的语法...

    python2.7+win7+32位+第三方安装包

    Python 2.7是Python编程语言的一个早期版本,它在许多旧系统中仍然广泛使用,尤其是在Windows 7这样的操作系统上。对于32位系统,Python 2.7提供了与64位系统不同的二进制兼容性,使得在这些平台上运行Python程序...

    BeautifulSoup-4.4.0.pdf

    中文版库 ...文档中出现的例子在Python2.7和Python3.2中的执行结果相同 你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的 项目中使用Beautiful Soup 4, 移植到BS4

    beautifulsoup-zh_CN-v4.4.0.zip

    BeautifulSoup是Python编程语言中的一款强大且常用的第三方库,主要用于解析HTML和XML文档。这个"beautifulsoup-zh_CN-v4.4.0.zip"压缩包包含的是BeautifulSoup库的中文版文档,版本为4.4.0,对于中文使用者来说,...

    python-2.7.18-64.rar

    1. **Python 2.7版本**:Python 2.7是Python 2.x系列的最后一个版本,它在2010年发布,具有丰富的标准库和强大的社区支持。尽管Python 3已经成为主流,但很多遗留项目和系统仍然依赖于Python 2.7。 2. **64位支持**...

    fiddler4_3259_python抓包_fildder结合python_fiddler_python开发工具_fiddle

    **Fiddler4_3259:Python抓包与Fiddler结合的实战指南** 在互联网开发过程中,网络请求的调试与分析是一项至关重要的任务。`Fiddler4`是一款强大的HTTP抓包工具,它可以帮助开发者查看、修改、甚至断点任何HTTP(S)...

    python2.7实现爬虫网页数据

    代码使用python2.7做的爬虫 抓取51job上面的职位名,公司名,薪资,发布时间等等。 直接上代码,代码中注释还算比较清楚 ,没有安装mysql需要屏蔽掉相关代码: #!/usr/bin/python # -*- coding: UTF-8 -*- from ...

    beautifulsoup for python

    在标题"beautifulsoup for python"中,我们明确了BeautifulSoup是Python中的一个库,主要服务于网页解析。 描述提到,BeautifulSoup提供多种函数来提取指定HTML标签中的信息。这意味着它具备灵活性和易用性,能够...

    离线安装python Beautifulsoup4库

    离线安装python Beautifulsoup4库

    sql注入程序(python2.7+pyqt4.8.5)

    标签中提到的"python"表明整个项目的核心是Python编程,这可能包括网络请求库(如`requests`)、数据解析库(如`BeautifulSoup`)以及可能的数据库交互模块(如`sqlite3`或`pymysql`)。 项目中包含的两个jsp测试...

    Python模块 - Beautifulsoup中文手册

    ### Python模块 - Beautifulsoup中文手册知识点详解 #### 一、BeautifulSoup简介 - **定义**:Beautiful Soup(简称“BS”)是Python语言的一个库,主要用于解析HTML或XML文档,并从中提取所需的数据。 - **作用**...

    python爬虫-beautifulsoup.ipynb

    python爬虫-beautifulsoup实践代码python爬虫-beautifulsoup实践代码

    一个简单的python爬虫,原生python+BeautifulSoup

    一个简单的python爬虫,原生python+BeautifulSoup 原生python+BeautifulSoup4 python3.4版本 所有脚本要和spider.py放到同一目录下 自行下载BeautifulSoup4 的类库 window下 pip install bs4即可 爬取知乎的爬虫 ...

    Spider:网络爬虫 基于python2.7 闲来无事 用于练习

    **Python网络爬虫基础** ...尽管Python 3已成为主流,但理解Python 2.7的爬虫开发仍然对学习现代Python爬虫技术有帮助。随着Python 2的逐渐淘汰,建议将项目升级到Python 3,以利用其最新特性和库。

Global site tag (gtag.js) - Google Analytics