`
C_J
  • 浏览: 127969 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

爬取远程博文入本地数据库小应用(阉割在摇篮之中)

 
阅读更多

题记:

    今天闲着蛋疼,想弄个自己的博客,于是前台需要一个美观的页面,后台就需要爬爬XXX,因为看到XXX有RSS,原以为抓抓网页就省事了,可没想到.....更没想到...

 

 

Page:

    先搞了个page,向CSS牛人学习下。


 

 

Rot:

    原以为URLConnection抓到xml页面就可以了,可悲剧发生了,直接遭到XXX的拒绝。

 

 <body>
    <div style="padding:50px 0 0 300px">
      <h1>您的访问被拒绝</h1>
            <p>您可能使用了网络爬虫!</p>
     XXXXXXXXX
    </div>
  </body>

 

- -! 于是就自然而然的自己构造http包,对XXX的80端口直接发送http包,折腾了几个小时,弄完后虽然没有被XXX直接拒收,但由于对HTTP协议不够深入,请求页面没被执行成功,如下:

 

www.XXXXX.com/XXX.XXX.XXX.XXX
80
HTTP/1.1 400 Bad Request
Connection: close
Content-Type: text/html
Content-Length: 349
Date: Sat, 24 Jul 2010 16:52:47 GMT
Server: lighttpd/1.4.20

<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
         "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
 <head>
  <title>400 - Bad Request</title>
 </head>
 <body>
  <h1>400 - Bad Request</h1>
 </body>
</html>

 

无奈,不想弄HTTP包了,用URLConnection伪装个User-Agent,结果竟然被抓出来了,汗一个!!

 

 

<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"  xmlns:atom="http://www.w3.org/2005/Atom">

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
</rss>
</xml>

 

 

XML(待续)

拿到博客的InputStream后,开始解析XML流并入后台数据库。

package org.blog.xml;

import java.io.IOException;
import java.io.InputStream;
import java.util.Map;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;


import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;


/**
 * 
 * @author cjcj
 *
 */
public class XMLParser {
	public Document parser(InputStream is) throws ParserConfigurationException, SAXException, IOException{
		DocumentBuilderFactory f=DocumentBuilderFactory.newInstance();
		DocumentBuilder builder=f.newDocumentBuilder();
		Document doc=builder.parse(is);
		getItems(doc.getDocumentElement());
		return doc;
	}
	
	private Map<String,String> getItems(Element n){
		if(n==null)throw new NullPointerException();
		// get the item..
		NodeList nl=n.getElementsByTagName("item");
		for(int i=0;nl!=null&&i<nl.getLength();++i){
			Element et=(Element) nl.item(i);
			System.out.println(getTextValue(et,"title"));// get the title....
		}
		return null;
		
	}
	
	private String getTextValue(Element e,String tagNm){
		NodeList nl=e.getElementsByTagName(tagNm);
		return nl!=null&&nl.getLength()>0?nl.item(0).getFirstChild().getNodeValue():null;
	}
}

package org.blog.xml;

import java.io.IOException;
import java.io.InputStream;
import java.util.Map;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;


import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.xml.sax.SAXException;


/**
 * 
 * @author cjcj
 *
 */
public class XMLParser {
	public Document parser(InputStream is) throws ParserConfigurationException, SAXException, IOException{
		DocumentBuilderFactory f=DocumentBuilderFactory.newInstance();
		DocumentBuilder builder=f.newDocumentBuilder();
		Document doc=builder.parse(is);
		getItems(doc);
		return doc;
	}
	
	public Map<String,String> getItems(Node n){
		if(n==null)throw new NullPointerException();
		//Map<String,String> items=new HashMap<String,String>();
		//NodeList lists=doc.getChildNodes();
		System.out.println(n.getNodeName());
		System.out.println(n.getNodeValue());
		//NamedNodeMap map=n.getAttributes();
		//Node lists=map.getNamedItem("item");
		return null;
		
	}
}

 

Filter

压缩

 

DB

 

智能检测更新与定时器

   方案一:通过比对<pubDate></pubDate>标签来判定更新。

 

 

  • 大小: 15.4 KB
分享到:
评论
15 楼 JavaLanguageFun 2010-07-26  
我XX,你这写的啥?全是XXX,我也XXX
14 楼 hardPass 2010-07-26  
知己知彼,才能防扒
知道如何防扒,才知道如何反防扒
道高一尺 魔 一丈
13 楼 C_J 2010-07-26  
引用

伪装个User-Agent 是常用手段吧,网站既要保证普通用户的正常访问,又想防爬,几乎是不可能的,特别是不遵循robots.txt的爬虫




引用
我恨你。。


别啊,妹妹:)

楼上很多哥哥都说出答案了。
12 楼 pgy20032000 2010-07-26  
我恨你。。
11 楼 ywlqi 2010-07-26  
伪装个User-Agent 是常用手段吧,网站既要保证普通用户的正常访问,又想防爬,几乎是不可能的,特别是不遵循robots.txt的爬虫
10 楼 showr 2010-07-26  
如何用 用URLConnection伪装个User-Agent ?
9 楼 luoyahu 2010-07-26  
被楼主骗了。只有问题没有答案
8 楼 pochonlee 2010-07-26  
知识量太少...
7 楼 southgate 2010-07-26  
httpclient不是省事嘛
6 楼 taoyu3781212 2010-07-26  
urlConnection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
5 楼 qiren83 2010-07-25  
就不能具体点 如怎么使用过 user-angent ==

或是直接放点源码来让大家学习 研究下

先谢了
4 楼 C_J 2010-07-25  
heqishan 写道
期待你的待续,话说,自己做blog为啥不用wrodpress?还有,你这篇文章写的太简单了吧。?


貌似牵涉到安全问题,不好细究吧?
因为闲着蛋疼就自己写写咯:)

主要是想提醒XXX站,是否要多考虑下安全问题。

楼上说的cookie方式能具体点吗?
3 楼 danielli007 2010-07-25  
你真是蛋疼的非常明显!
2 楼 onlylau 2010-07-25  
我前段时间写的一个爬虫程序,遇到的一个网站是通过cookie方式防爬的
1 楼 heqishan 2010-07-25  
期待你的待续,话说,自己做blog为啥不用wrodpress?还有,你这篇文章写的太简单了吧。?

相关推荐

    scrapy爬取伯乐在线博客文章保存到本地数据库

    scrapy爬取伯乐在线博客文章列表保存到本地数据库。这个是本人最近学习爬虫的一个实践案例,源码解析详情请移步博文:https://blog.csdn.net/xiaocy66/article/details/83834261

    scrapy爬虫爬取oschina开源中国博客文章保存到本地数据库

    scrapy爬虫爬取oschina开源中国博客文章保存到本地数据库。 这个是本人最近学习爬虫的一个实践案例,源码解析详情请移步博文:https://blog.csdn.net/xiaocy66/article/details/83834261

    Python:爬取博文评论

    爬取博文评论数据: 1. 用 Jupyter Noteboke 打开; 2. 用到了requests库; 3. json() 函数; 4. to_excel函数储存数据; 注意注意注意: 第一次执行时,可能会弹出爬取失败的网址; 遇到这种情况,重复执行几次...

    Python:爬取博文内容

    爬取博文内容: 1. 用 Jupyter Noteboke 打开; 2. 用到了requests库; 3. json() 函数; 4. to_excel函数储存数据; 注意注意注意: 第一次执行时,可能会弹出爬取失败的网址; 遇到这种情况,重复执行几次就OK了...

    python爬取微博关键词搜索博文

    python爬取微博关键词搜索博文,只需要修改cookie和url参数

    批量爬取某博博文、评论和回复

    1、爬取某博正文存储于单独文件中 2、爬取博文下的评论和回复,分别存储于两个表格中,并存储主码与外码,方便后续连接 解决方案 1、爬取网页解析后得到博文编号 2、从开发者工具中的抓包工具中查看json格式数据,...

    python爬取单个博主所有博文

    python+urllib+selenium爬取CSDN单个博主的所有博文。步骤: 1.通过selenium获取js动态加载的页数 页数是javascript动态加载,不能直接通过urllib获取。改为通过selenium获取页数。 2.通过urllib获取一页内所有文章...

    android 连接远程数据库

    在Android开发中,连接远程数据库是一项常见的任务,它允许应用程序从服务器获取或存储数据,实现数据的同步。这里我们将深入探讨如何在Android中实现这一功能,以及涉及的相关知识点。 首先,我们要了解Android与...

    go语言实现的简单爬虫来爬取CSDN博文

    一般是定义一个入口页面,然后一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。 golang由于其...

    网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

    在项目完成后,FengCnblogs这个文件很可能是爬取结果的存储,可能包含了抓取的每篇博文的关键信息,如标题、作者、内容摘要和链接等。通过分析这些数据,我们可以进行进一步的文本挖掘,比如情感分析、关键词提取、...

    scrapy爬取itpub博客文章保存到本地mysql

    scrapy爬取itpub博客文章列表保存到本地数据库。这个是本人最近学习爬虫的一个实践案例,源码解析详情请移步博文:https://blog.csdn.net/xiaocy66/article/details/83834261

    远程创建数据库服务

    图片详解 博文链接:https://gcfwuwei-yahoo-com-cn.iteye.com/blog/764295

    所有使用数据库的Web应用都\"just CURD Apps(只是CURD应用)

    标题中的“所有使用数据库的Web应用都'just CURD Apps(只是CURD应用)'”指的是在Web开发中,大部分应用程序的核心功能围绕着四个基本操作:创建(Create)、读取(Read)、更新(Update)和删除(Delete),简称CURD...

    mysql数据库全文多库多表查找,查询所有数据库中包含指定字符的数据。

    2、支持本地使用或者指定远程数据库地址; 3、支持命令行指定参数方便运行,支持省略参数; 4、支持显示匹配的数据来自数据库名称和表名称; 5、兼容多个版本的数据库; 6、支持多种操作系统的使用运行; 7、关键词...

    python根据微博关键字爬取博文信息

    输入关键字采集相对应博文信息,包括'页码', '微博id', '微博bid', '微博作者', '发布时间', '微博内容', '转发数', '评论数'等

    scrapy爬取51cto博客文章

    scrapy爬取51cto博客文章列表保存到本地数据库。这个是本人最近学习爬虫的一个实践案例,源码解析详情请移步博文:https://blog.csdn.net/xiaocy66/article/details/83834261

    图书管理系统博文的配套数据库文件

    当初写图书管理系统博客时没有附加数据库文件相关内容,也算一个补充吧

    python爬取微博关键词搜索博文,修改cookie和地址就可以

    python爬取微博关键词搜索博文,修改cookie和地址就可以

Global site tag (gtag.js) - Google Analytics