`
2277259257
  • 浏览: 518585 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

网页抓取--4(破解反制)

 
阅读更多

java发送http请求,解析html返回的技术,主要是用于抓取网站数据。

思路:

    java通过URLConnection链接目的地网址,链接成功后从inputStream中获取返回的html内容,获取后就可以按照正则匹配的方式或者第三方工具,根据页面信息的规律来分析数据获取数据。

 

反制措施:

    谁的网站都不想让别人轻易的抓取到自己的数据,那怎么避免这种事情发生呢?

一般在http服务器目录下配置robots.txt文件,具体写法网上查; 不过也是有办法突破的,基本上防君子不防小人;大网站也用robots.txt这么做,不过更多的是一种法律上的手段禁止别人爬取,要想技术上做到绝对不允许爬取的话很难,比如taobao屏蔽baidu就是一个例子; 靠robots.txt文件的配置能挡掉很大一部分了; 但如果你想要求更严格,那只能自己做http服务器扩展来保证了,比如开发一个apache的module,挡掉那些不起眼的爬虫。
在反制其他人恶意抓取分析自己网站数据上,可以采用网页加密的方式。加密后的网页能够正常在Internet Explorer或者Netscape Navigator浏览,但是源代码无法正常编辑或查看。不确定的问题是,是否影响速度、是否影响多浏览器的兼容。--待验证

Java发送Http请求,解析html返回

文章分类:Java编程
今天是2008年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google的翻译,所以想把google的翻译整合到我的开始页面中来,于是乎就遇到了一个问题,怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出?另外,google的翻译页面是使用post的方法提交数据的,无法直接通过网址进行处理,于是乎,这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问(花了我20分),找到了一个htmlparser的jar包组件,据说是可以很高效率的进行html的解析。于是乎,立马下载了一个过来。(文后附件中有)试了一下果然不错。同时,在这个过程中也学会了怎样利用java来和其它网站交互,这可是一个非常不错的功能,配合htmlparser,可以随心所欲的截取别人网站的信息了!
废话不多说了,下面是具体的使用步骤。

首先,向一个Web站点发送POST请求只需要简单的几步:
注意,这里不需要导入任何第三方包
 
package com.test;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;
public class TestPost {
 public static void testPost() throws IOException {
  
  URL url = new URL("http://www.faircanton.com/message/check.asp");
  URLConnection connection = url.openConnection();
  
  connection.setDoOutput(true);
  
  OutputStreamWriter out = new OutputStreamWriter(connection
    .getOutputStream(), "8859_1");
  out.write("username=kevin&password=*********"); //post的关键所在!
  // remember to clean up
  out.flush();
  out.close();
  
  // 一旦发送成功,用以下方法就可以得到服务器的回应:
  String sCurrentLine;
  String sTotalString;
  sCurrentLine = "";
  sTotalString = "";
  InputStream l_urlStream;
  l_urlStream = connection.getInputStream();
  // 传说中的三层包装阿!
  BufferedReader l_reader = new BufferedReader(new InputStreamReader(
    l_urlStream));
  while ((sCurrentLine = l_reader.readLine()) != null) {
   sTotalString += sCurrentLine + "\r\n";
  }
  System.out.println(sTotalString);
 }
 public static void main(String[] args) throws IOException {
  testPost();
 }
}
 
执行的结果:(果真是返回了验证后的html阿!神奇!)
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>账户已经冻结</title>
<style type="text/css">
<!--
.temp {
 font-family: Arial, Helvetica, sans-serif;
 font-size: 14px;
 font-weight: bold;
 color: #666666;
 margin: 10px;
 padding: 10px;
 border: 1px solid #999999;
}
.STYLE1 {color: #FF0000}
-->
</style>
</head>
<body>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
  <tr>
    <td width="135" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td>
    <td width="563"><p><span class="STYLE1">登录失败</span><br>
        <br>
    您的帐户活跃指数低于系统限制,您的帐户已经被暂时冻结。<br>
    请您联系网络主管或者人事主管重新激活您的帐户。</p>
    </td>
  </tr>
</table>
<p>&nbsp;</p>
</body>
</html>
 
一些Web站点用POST形式而不是GET,这是因为POST能够携带更多的数据,而且不用URL,这使得它看起来不那么庞大。使用上面列出的大致的代码,Java代码可以和这些站点轻松的实现对话。


得到html以后,分析内容就显得相对轻松了。现在就可以使用htmlparser了,下面是一个简单的示例程序,过多的解释我就不说了,相信代码能够说明一切的!
 
package com.test;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;

public class TestHTMLParser {
  public static void testHtml() {
    try {
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        java.io.InputStream l_urlStream;
        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
        l_connection.connect();
        l_urlStream = l_connection.getInputStream();
        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
          sTotalString += sCurrentLine+"\r\n";
        //  System.out.println(sTotalString);
        }
        String testText = extractText(sTotalString);
        System.out.println( testText );
    } catch (Exception e) {
        e.printStackTrace();
    }
  }
 
  public static String extractText(String inputHtml) throws Exception {
    StringBuffer text = new StringBuffer();
    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
    // 遍历所有的节点
    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
        public boolean accept(Node node) {
          return true;
        }
    });
    System.out.println(nodes.size()); //打印节点的数量
    for (int i=0;i<nodes.size();i++){
         Node nodet = nodes.elementAt(i);
         //System.out.println(nodet.getText());
        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");         
    }
    return text.toString();
  }
 
  public static void test5(String resource) throws Exception {
    Parser myParser = new Parser(resource);
    myParser.setEncoding("GBK");
    String filterStr = "table";
    NodeFilter filter = new TagNameFilter(filterStr);
    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
    TableTag tabletag = (TableTag) nodeList.elementAt(11);
    
  }
  public static void main(String[] args) throws Exception {
    // test5("http://www.ggdig.com");
    testHtml();
  }
}
分享到:
评论

相关推荐

    网页抓取小工具

    网页抓取小工具,顾名思义,是一种用于获取网页数据的实用软件,它使得学习网站制作的初学者能够轻松地研究和分析其他网站的设计、布局以及所使用的资源。在这个数字化时代,理解并掌握如何有效地从互联网上获取信息...

    使用JCEF(chromium内核)开发的抓取数据浏览器,可以用来制作浏览器,也可以用来制作爬虫

    这个项目可能包括了对特定网站的爬虫配置、数据解析逻辑、请求管理、以及可能的反反爬虫策略。开发者可以深入研究这个项目的代码,学习如何利用JCEF进行Web爬虫开发。 总结,JCEF是Java开发者构建Web应用和实现高级...

    上传一个地图抓取程序

    首先,地图抓取程序通常基于网络爬虫技术,利用HTTP/HTTPS协议来请求和获取网页内容。它们通过解析HTML、JavaScript甚至API接口来定位到地图图片的URL,然后下载这些图片。例如,对于一些在线地图服务如谷歌地图、...

    Python-从Amazon抽取商品信息的Python3脚本

    再者,考虑到Amazon对爬虫的反制策略,该项目可能还涉及了IP代理池的使用。为了防止因频繁请求而被Amazon封禁,开发者可能会使用代理IP进行轮换,降低单个IP的请求频率。Python中的requests-rotate库就是用于IP代理...

    爬虫蜘蛛程序的制作[大体制作过程].doc

    - 抓取到新的链接后,重复步骤2-4,形成递归过程,直到达到预设的深度限制或抓取目标达成。 6. **多线程提升效率** - 为了提高爬虫的下载速度,可以使用多线程技术,让分析和下载同时进行,避免资源浪费。 - ...

    最新汽车之家车型数据以及抓取方法20180718

    这可能涉及到网页抓取技术,如使用Python的BeautifulSoup或Scrapy框架,通过解析HTML代码来提取目标信息。此外,数据抓取时可能还需要处理登录验证、反爬虫策略等问题,以及如何有效地存储和处理抓取到的大规模数据...

    大数据时代的反爬虫技术_陈利婷

    3. IP反制技术:通过限制同一IP地址的访问频率或者在检测到爬虫行为后封禁IP地址,可以防止爬虫程序对网站的过度抓取。 4. 用户代理识别:网站通过检查HTTP请求中的User-Agent字段来识别是否是爬虫,由于爬虫和正常...

    解析百度网页另存为html文件

    同时,由于百度可能会对爬虫进行反制,因此在实际操作时需要遵循爬虫伦理,尊重网站的robots.txt文件。 3. **中文转换拼音工具类**: 在处理中文文本时,有时需要将汉字转换为其对应的拼音,这在语音合成、搜索...

    网页爬虫算法的一个下程序

    网页爬虫,也被称为网络蜘蛛或自动索引器,是一种用于自动遍历互联网并抓取网页内容的程序。在这个特定的“网页爬虫算法的一个下程序”中,开发者已经实现了一个能够抓取大约100多个网页的功能。这表明这是一个初级...

    获取网站完整源码工具

    获取网站源码工具有多种类型,其中最常见的是网页抓取工具和网页下载管理器。例如,`HTTrack Website Copier` 是一个开源的网站镜像工具,可以下载整个网站到本地,包括所有链接的文件。另一款名为`WebCopy`的工具,...

    制作好的网页爬虫:1号店商品评论采集规则附完整使用教程

    总的来说,制作和使用1号店商品评论的网页爬虫涉及到网页抓取技术、数据解析、异常处理、数据存储等多个方面。通过学习和实践这个教程,不仅可以掌握爬虫开发的基本技能,还能了解如何利用爬取的数据进行深入的业务...

    制作电子书软件ebook

    ebookPK-e书部落电子书制作器是一个集书籍内容采集、制作、共享为一体的全功能制作器,目前能导入和制作txt,jar,chm,PDF,UMD,doc,...利用网络导入功能,可自动爬行并抓取各类网页文字,成名副其实的“网络印刷机”。

    C#网络编程高级篇之网页游戏辅助程序设计软件包

    在本压缩包中,我们关注的是"C#网络编程高级篇之网页游戏辅助程序设计软件包",这是一份专门针对C#编程语言在网络编程领域的高级应用,特别是涉及到网页游戏辅助程序设计的实例代码。这份资源对于想要深入学习C#网络...

    seo教程-SEO入门到提高全攻略-九头鸟经典班实战教程之一

    - **爬虫机制**:搜索引擎通过爬虫(机器人)来抓取网页内容。 - **索引建立**:抓取后的数据会被索引以便于后续的查询。 - **排名算法**:根据一系列复杂算法确定网页的排序。 **2. 搜索引擎优化** - **关键词...

    basic-crawler:用python制作的基本网络抓取工具,可提取种子页面到相关页面的所有链接

    在实际应用中,我们还需要处理网络异常、重定向、robots.txt规则以及反爬虫策略。例如,我们可以使用`try/except`语句捕获`requests.exceptions.RequestException`,以处理可能出现的网络问题。同时,尊重网站的...

    flightaware_scraper:在美国指定航线上使用Selenium制成的飞机模型的抓取器

    在抓取过程中,可能会遇到反爬虫策略,如验证码、IP限制等。这时,可以通过设置延时(time.sleep)、更换User-Agent、使用代理IP等方式来提高抓取的成功率。 在flightaware_scraper项目中,为了实现批量抓取,可能...

    制作你自己的爬虫机器人.zip

    在IT领域,爬虫机器人是一种自动化程序,用于在网络上抓取大量数据。制作自己的爬虫机器人是学习数据分析、网站抓取和信息处理的重要步骤。在这个过程中,你需要了解编程语言(如Python)、网络请求库(如requests)...

    97B2B网站客户资料采集

    爬虫是一种自动化程序,它遍历网页并抓取所需信息。在97B2B网站客户资料采集过程中,开发者可能使用了HTML解析库,如HtmlAgilityPack或JSOUP,来解析HTML文档,提取出客户资料。这些资料可能包括公司名、联系人、...

    大麦抢票-BP全自动抢购教程+注意事项

    2. **数据抓取**:分析网页结构,提取所需信息,如演出详情、场次、座位等。 3. **实时刷新**:设置定时任务,实时监测票务状态,一旦有票立即触发抢购。 4. **验证码处理**:使用OCR技术或第三方服务识别和输入...

    使用selenium,request,bs4等爬虫库以及flask框架制作的小项目.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

Global site tag (gtag.js) - Google Analytics