`
lzj0470
  • 浏览: 1264915 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlparser如何连接网络

F# 
阅读更多

今天,有个人问我,前几天已经可以抓取,今天不知道为什么就不可以抓取。

String url = "http://company.zhaopin.com/P2/CC1202/0271/CC120202712.htm?f=sa&DYWE=1223885821046.175835.1223890656.1223891112.9";

他用的办法是

URL url = new URL(url);

URLConnection conn = url.openconnection(url);

结果,返回的是403报错,禁止了这次的操作。

我没看过JAVA URL源代码,不知道它底层是如何操作的。想了两个小时,终于有点眉头。我用htmlparser源代码里面这段代码

instream = new GZIPInputStream(getConnection().getInputStream());的时候,想不到可以抓取该网页的数据。

顺便把htmlparser连接网络那部分源代码拿出来。弄成自己的东西。

以下是全部源代码:

 

分享到:
评论

相关推荐

    Java使用HtmlParser实现简单的网络爬虫

    以下是如何使用HtmlParser实现网络爬虫的关键知识点: 1. **HtmlParser库**:HtmlParser是一个强大的HTML解析器,它能够解析HTML文档,将其转换为一个可操作的节点树,方便开发者通过节点过滤和遍历来获取目标信息...

    使用 HttpClient 和 HtmlParser 实现简易网络爬虫

    在使用HttpClient和HtmlParser实现网络爬虫的过程中,首先需要设置开发环境。这里推荐使用Eclipse Europa作为集成开发环境(IDE),并确保安装了JDK 1.6。在Eclipse中创建一个新的JAVA工程,并将HttpClient和...

    基于htmlparser的网页爬虫和java调用excel代码

    6. **异常处理和效率优化**:一个健壮的爬虫应当处理各种可能出现的异常,如网络连接错误、HTML解析错误等。同时,为了提高爬虫效率,可以使用多线程技术并行爬取多个页面,或者设定合理的延时策略避免对目标网站...

    HtmlParser学习笔记-- htmlparser简介

    - 使用URL连接构造函数,直接传入URL连接对象。 - 使用静态方法`createParser`,传入HTML字符串和相应的字符集。 在处理复杂HTML文档时,开发者还可以利用Lexer进一步定制解析过程,但这是更高级的主题,需要深入...

    HttpClient&&HtmlParser(Crawler)网络爬虫

    HttpClient 和 HtmlParser 是在Java开发中构建网络爬虫(Crawler)时常用到的两个库。HttpClient 提供了丰富的HTTP客户端接口,可以用于发送HTTP请求并接收响应,而HtmlParser则用于解析HTML文档,提取所需的数据。...

    搜索引擎Lucene Herritrix htmlparser

    在这个案例中,Spring可能被用来管理应用程序的组件,如数据库连接、事务管理和服务层,将Heritrix、Lucene和htmlparser整合到一个统一的系统中。 在项目文件“heritrixProject”中,我们可以预期找到Heritrix的...

    使用HTMLPARSER和HTTPCLIENT制作网络爬虫,附赠相关技术文档。

    HTMLPARSER对不规则的HTML具有很好的容忍性,这意味着即使HTML代码不完全符合规范,它也能正常工作,这是网络爬虫面临的一大挑战,因为互联网上的许多页面都存在编码错误或不规范的情况。 HTTPCLIENT则是Apache基金...

    爬数据案例 httpclient htmlparser

    本案例聚焦于使用Java语言结合`httpclient`库进行网络请求,以及`htmlparser`库解析HTML文档,实现一个基础的爬虫程序。下面我们将深入探讨这两个库及其在爬数据中的应用。 `httpclient`是Apache软件基金会开发的一...

    基于HttpClient与HTMLParser 的网页正文提取

    本文主要介绍了如何利用HttpClient与HTMLParser这两种技术来实现网页正文的提取。文章首先阐述了互联网信息飞速增长的背景下,网页数据提取的重要性,以及自动化的网页抓取与分析对于科研、工程和商业活动的意义。...

    使用_HttpClient_和_HtmlParser_实现简易爬虫

    HttpClient 和 HtmlParser 是两个在Java开发中用于网络通信和网页解析的重要开源库。HttpClient 主要负责处理HTTP协议的网络请求,如GET和POST,而HtmlParser则用于解析HTML文档,提取所需信息。以下是对这两个库的...

    htmlparser下载网页

    首先创建了一个 `URL` 对象,然后通过调用 `openConnection()` 方法获取到一个 `HttpURLConnection` 对象,接着调用 `connect()` 方法建立连接。通过 `getInputStream()` 方法获取输入流,再使用 `BufferedReader` ...

    htmlparser实现爬虫.doc

    - `Parser(URLConnection connection)`: 使用给定的URL连接创建解析器。 2. **静态方法**: - `createParser(String html, String charset)`: 创建一个基于输入字符串的解析器,指定字符编码。 3. **访问者模式**...

Global site tag (gtag.js) - Google Analytics