爬取远程博文入本地数据库小应用（阉割在摇篮之中）

C_J

浏览: 130563 次
性别:
来自: 北京

最近访客更多访客>>

jimwzws

jacklin2015

maogewudi

wudu55

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

题记：

今天闲着蛋疼，想弄个自己的博客，于是前台需要一个美观的页面，后台就需要爬爬XXX，因为看到XXX有RSS，原以为抓抓网页就省事了，可没想到.....更没想到...

Page：

先搞了个page，向CSS牛人学习下。

Rot：

原以为URLConnection抓到xml页面就可以了，可悲剧发生了，直接遭到XXX的拒绝。

 <body>
    <div style="padding:50px 0 0 300px">
      <h1>您的访问被拒绝</h1>
            <p>您可能使用了网络爬虫！</p>
     XXXXXXXXX
    </div>
  </body>

- -！于是就自然而然的自己构造http包，对XXX的80端口直接发送http包，折腾了几个小时，弄完后虽然没有被XXX直接拒收，但由于对HTTP协议不够深入，请求页面没被执行成功，如下：

www.XXXXX.com/XXX.XXX.XXX.XXX
80
HTTP/1.1 400 Bad Request
Connection: close
Content-Type: text/html
Content-Length: 349
Date: Sat, 24 Jul 2010 16:52:47 GMT
Server: lighttpd/1.4.20

<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
         "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
 <head>
  <title>400 - Bad Request</title>
 </head>
 <body>
  <h1>400 - Bad Request</h1>
 </body>
</html>

无奈，不想弄HTTP包了，用URLConnection伪装个User-Agent，结果竟然被抓出来了，汗一个！！

<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"  xmlns:atom="http://www.w3.org/2005/Atom">

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
</rss>
</xml>

XML（待续）

拿到博客的InputStream后，开始解析XML流并入后台数据库。

package org.blog.xml;

import java.io.IOException;
import java.io.InputStream;
import java.util.Map;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;


import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;


/**
 * 
 * @author cjcj
 *
 */
public class XMLParser {
	public Document parser(InputStream is) throws ParserConfigurationException, SAXException, IOException{
		DocumentBuilderFactory f=DocumentBuilderFactory.newInstance();
		DocumentBuilder builder=f.newDocumentBuilder();
		Document doc=builder.parse(is);
		getItems(doc.getDocumentElement());
		return doc;
	}
	
	private Map<String,String> getItems(Element n){
		if(n==null)throw new NullPointerException();
		// get the item..
		NodeList nl=n.getElementsByTagName("item");
		for(int i=0;nl!=null&&i<nl.getLength();++i){
			Element et=(Element) nl.item(i);
			System.out.println(getTextValue(et,"title"));// get the title....
		}
		return null;
		
	}
	
	private String getTextValue(Element e,String tagNm){
		NodeList nl=e.getElementsByTagName(tagNm);
		return nl!=null&&nl.getLength()>0?nl.item(0).getFirstChild().getNodeValue():null;
	}
}

package org.blog.xml;

import java.io.IOException;
import java.io.InputStream;
import java.util.Map;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;


import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.xml.sax.SAXException;


/**
 * 
 * @author cjcj
 *
 */
public class XMLParser {
	public Document parser(InputStream is) throws ParserConfigurationException, SAXException, IOException{
		DocumentBuilderFactory f=DocumentBuilderFactory.newInstance();
		DocumentBuilder builder=f.newDocumentBuilder();
		Document doc=builder.parse(is);
		getItems(doc);
		return doc;
	}
	
	public Map<String,String> getItems(Node n){
		if(n==null)throw new NullPointerException();
		//Map<String,String> items=new HashMap<String,String>();
		//NodeList lists=doc.getChildNodes();
		System.out.println(n.getNodeName());
		System.out.println(n.getNodeValue());
		//NamedNodeMap map=n.getAttributes();
		//Node lists=map.getNamedItem("item");
		return null;
		
	}
}

Filter

压缩

智能检测更新与定时器

方案一：通过比对<pubDate></pubDate>标签来判定更新。

查看图片附件

分享到：

Java Media Framework本地玩转摄像头 | CyclicBarrier与CountDownLatch、栅栏与计 ...

2010-07-25 01:52
浏览 1033
评论(15)
论坛回复 / 浏览 (15 / 6829)
分类:编程语言
查看更多

15 楼 JavaLanguageFun 2010-07-26

我XX，你这写的啥？全是XXX,我也XXX

14 楼 hardPass 2010-07-26

知己知彼，才能防扒
知道如何防扒，才知道如何反防扒
道高一尺魔一丈

13 楼 C_J 2010-07-26

引用

伪装个User-Agent 是常用手段吧，网站既要保证普通用户的正常访问，又想防爬，几乎是不可能的，特别是不遵循robots.txt的爬虫

嗯

引用

我恨你。。

别啊，妹妹：）

楼上很多哥哥都说出答案了。

12 楼 pgy20032000 2010-07-26

我恨你。。

11 楼 ywlqi 2010-07-26

伪装个User-Agent 是常用手段吧，网站既要保证普通用户的正常访问，又想防爬，几乎是不可能的，特别是不遵循robots.txt的爬虫

10 楼 showr 2010-07-26

如何用用URLConnection伪装个User-Agent ?

9 楼 luoyahu 2010-07-26

被楼主骗了。只有问题没有答案

8 楼 pochonlee 2010-07-26

知识量太少...

7 楼 southgate 2010-07-26

httpclient不是省事嘛

6 楼 taoyu3781212 2010-07-26

urlConnection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

5 楼 qiren83 2010-07-25

就不能具体点如怎么使用过 user-angent ==

或是直接放点源码来让大家学习研究下

先谢了

4 楼 C_J 2010-07-25

heqishan 写道

期待你的待续，话说，自己做blog为啥不用wrodpress？还有，你这篇文章写的太简单了吧。？

貌似牵涉到安全问题，不好细究吧？
因为闲着蛋疼就自己写写咯：）

主要是想提醒XXX站，是否要多考虑下安全问题。

楼上说的cookie方式能具体点吗？

3 楼 danielli007 2010-07-25

你真是蛋疼的非常明显！

2 楼 onlylau 2010-07-25

我前段时间写的一个爬虫程序，遇到的一个网站是通过cookie方式防爬的

1 楼 heqishan 2010-07-25

期待你的待续，话说，自己做blog为啥不用wrodpress？还有，你这篇文章写的太简单了吧。？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论