使用HTML Parser获取需要HTTP认证的页面的方法 - yiyu - ITeye博客

`

yiyu

浏览: 188379 次
性别:
来自: 北京

最近访客更多访客>>

彭彪321

webeasymail

dawei1980

akacd

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

di1984HIT：记录一下。嘿嘿
eclipse中关闭js报错的方法
di1984HIT：谢谢，学习了
jdk输出带缩进格式xml的方法
雪狐狼：为何，每次查询需要构建datatable?
YUI DataTable 服务器端翻页与排序
lijunwyf41： nd:"nd", // 表示已经发送请求的 ...
jqGrid <-- json --> spring,hibernate之服务器端分页，排序
yiyu：最近不看YUI了，发现一个国产的前端框架，是金蝶出的，叫Ope ...
YUI 3 学习笔记（5）- Attribute类

使用HTML Parser获取需要HTTP认证的页面的方法

博客分类：

java

阅读更多

HTML Parser（http://htmlparser.sourceforge.net/）是一个解析HTML的开源
项目，它可以给出url自动去读取网页，今天碰到的问题是访问一个需要HTTP认
证的页面（不是一般常见的从登录窗口登录），方法很简单，就是通过该包中的
ConnectionManager就可以实现，示例代码如下：

ConnectionManager cm = new ConnectionManager();
cm.setUser(user);
cm.setPassword(password);
Parser parser = new Parser(cm.openConnection(strUrl))

;

分享到：

在ie上使用xpath时selenium运行缓慢的解决 ... | 使用javamail通过需要身份验证的smtp服务器 ...

2010-04-09 13:48
浏览 1370
评论(1)
论坛回复 / 浏览 (1 / 1540)
分类:编程语言
查看更多

评论

1 楼 myjoe 2010-05-10

lz惜墨如金啊

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HttpClient以及获取页面内容应用: 1.4使用方法与步骤开发环境：需要使用HttpClient发送请求、接收响应很简单，一般需要如下几步即可。 1.创建HttpClient对象。 HttpClient client = new HttpClient(); 2.创建请求方法的实例，并指定请求URL。如果...

php写的网页小偷自动抓取网页并在本地重新生成HTML文件: - **请求页面**：程序发送HTTP请求到目标网站，获取HTML响应。 - **解析HTML**：程序使用DOM解析库（如DOMDocument或PHP Simple HTML DOM Parser）解析接收到的HTML，找出需要的数据。 - **内容提取**：根据预...

使用_HttpClient_和_HtmlParser_实现简易爬虫: 这个爬虫不仅可以从指定的URL获取页面内容，还能够解析页面中的链接，为进一步的数据抓取提供了可能。在未来，可以根据实际需求对该爬虫进行扩展，例如增加数据存储功能、优化爬取策略等，使其成为一个功能完善的...

从（ASP-）脚本中检索没有任何组件HTML页面: 2. **Perl的HTTP请求库**：在Perl中，可以使用如LWP（Library for WWW in Perl）模块来发送HTTP请求并获取HTML页面内容。LWP提供了一个简单的接口，可以模拟浏览器行为，请求网页并处理响应。 3. **LWP::UserAgent*...

python下载器代码: 在实际应用中，下载器可能需要处理更多复杂情况，例如处理网络错误、重定向、登录认证、分页等。此外，为了提高效率和避免对服务器造成过大压力，还可以引入`time.sleep`进行延迟请求，或者使用`session`对象保持...

掌握AJAX: 理解DOM的层次关系和操作方法对于有效使用AJAX至关重要，因为它决定了如何将新数据无缝地集成到页面中。 **第六章. 建立基于DOM的Web应用程序** 基于DOM的Web应用意味着页面的动态性和交互性主要依赖于DOM操作。...

下载视频2_python_下载视频_: 在这种情况下，我们需要处理认证和获取API令牌，这可能涉及到OAuth流程或者直接使用API密钥。最后，为了提高用户体验，我们可以添加进度条显示，利用`tqdm`库轻松实现： ```python from tqdm import tqdm def ...

XML轻松学习手册--XML肯定是未来的发展趋势，不论是网页设计师还是网络程序员，都应该及时学习和了解: Parser能独立使用，也可以成为编辑软件或浏览器的一部分。在后面的相关资源列表里，我列出了当前比较流行的一些parsers。　好了，通过第三章的学习，我们已经了解了一些XML和DTD的基本术语，但是我们还不知道怎样...

Python爬虫与Requests库笔记.md: - 需要合理设置请求间隔时间、使用代理IP等方式来避免被封禁。 3. **合法性问题**： - 在进行爬虫开发前，请确保遵守目标网站的服务条款以及当地的法律法规。通过上述知识点的学习，初学者可以系统地掌握Python...

demon02.zip: 在本项目中，我们将探索如何使用Node.js，特别是Express框架，来创建一个简单的前后端结合的Web应用。Node.js是一个基于Chrome V8引擎的JavaScript运行环境，它允许开发者使用JavaScript进行服务器端编程。Express则...

用node写一个简单的留言板--post请求: 为了有一个用户友好的界面，我们需要创建一个HTML页面。在项目根目录下创建一个名为`public`的文件夹，并在其中创建`index.html`： ```html <!DOCTYPE html> <html lang="zh"> , initial-scale=1.0"> 简单留言...

Node.js-NodeJS全栈学生管理系统: Passport库提供了灵活的身份验证机制，可以集成多种认证策略，如本地认证、OAuth等，确保只有授权用户能访问特定的管理页面。 6. **错误处理与日志记录** 使用`try-catch`语句进行异常捕获，配合Winston或Morgan...

python爬虫基础知识、爬虫实例、反爬机制等资源.docx: 2. **Scrapy官方文档**：Scrapy框架的官方文档，详细介绍了使用方法和高级特性。 3. **Python爬虫实战**：崔庆才的博客分享了许多实战经验和技巧，对于进阶学习很有帮助。 ### 基础知识 1. **Python基础**：首先...

Python编程基础-第14章-网络爬虫: - **基本使用方法**： - 发送GET请求：`response = requests.get(url)` - 发送POST请求：`response = requests.post(url, data=data)` - 获取响应内容：`response.text` 或 `response.content` - 检查状态码：`...

vue2.5.2使用http请求获取静态json数据的实例代码: 在实际项目中，你可能需要根据具体需求对服务器配置进行调整，例如添加认证、处理其他HTTP方法（POST、PUT、DELETE等）以及优化性能。同时，确保在Vue组件中正确处理异步数据，以实现数据驱动视图的动态更新。

nodeJs实现个人笔记: 1. **安装依赖**：首先，使用npm（Node Package Manager）安装所需的依赖包，包括express、mongoose（用于操作MongoDB的库）、body-parser（解析HTTP请求体）和ejs。 2. **设置Express**：创建一个Express应用，...

python各大网站登陆方式与一些简单的爬虫: 4. **动态加载内容处理**：许多现代网站使用AJAX动态加载内容，可以使用`Selenium`或`Scrapy-Splash`模拟浏览器行为，加载完整页面。 5. **异步请求**：使用`asyncio`配合`aiohttp`库进行异步请求，提高爬虫效率。 ...

node.js +express +ajax + mysql 对数据库增删改查，数据库有用户表和商品列表: 此外，项目可能还使用了其他技术，如 Passport.js 进行用户认证，EJS 或 Pug 作为视图引擎，Body-parser 处理HTTP请求体，Mongoose 或 Sequelize 作为ORM（对象关系映射）工具，简化数据库操作。这些工具和库进一步...

网盘聚合搜索php版(支持纳米盘、飞速网资源): 这涉及到网络爬虫技术，PHP可以通过cURL或者file_get_contents等函数发送HTTP请求，获取网页内容，再通过DOM解析库如PHP Simple HTML DOM Parser或正则表达式对网页内容进行解析，提取出与关键词相关的资源链接。...

Global site tag (gtag.js) - Google Analytics