parser设置超时 - 随手记录 - ITeye博客

`

lin358

浏览: 66112 次
性别:
来自: 福州

最近访客更多访客>>

沈shen

jys1109

lehmann_ding

kardos09

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

parser设置超时

博客分类：

j2se

java parser 设置超时爬虫

阅读更多

前段时间用parser编写了一个爬虫,部署后发现有的网页没有返回值时(或许是这样...其实最后也没搞懂为什么..囧)会出现程序卡死的问题,所以想给parser设置个超时,后来发现parser完全没有setReadTimeout之类的方法,经过查询相关资料发现只要这样就可以了,下面是解决方式

URL urlPage = new URL(urlString);
			HttpURLConnection conn = (HttpURLConnection) urlPage.openConnection();
			conn.setConnectTimeout(5000);
			conn.setReadTimeout(5000);
			Parser parser = new Parser(conn);

分享到：

桌面应用程序的标签换行 | 下载图片代码片段

2012-11-15 15:41
浏览 944
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python-MercuryParser非结构化网页信息提取工具: Mercury Parser允许你通过传递额外参数来自定义解析行为，比如设置代理、超时时间等。这些参数可以在`parse`方法中以关键字参数的形式传递。 7. **错误处理和调试**：在实际使用中，可能会遇到网络问题或无法...

twitter_data_parser-master.rar: 7. **错误处理**：在处理API请求和数据时，需要考虑异常处理，如请求超时、API限制等问题。 8. **测试**：通过单元测试和集成测试确保代码的正确性。 9. **持续集成/持续部署(CI/CD)**：可能包含GitHub Actions或...

jQuery AJAX timeout 超时问题详解: 在AJAX请求的error事件中，除了超时之外，还可能遇到其他类型的错误，如服务器错误（"error"）、未修改（"notmodified"）和解析错误（"parsererror"）。开发者可以根据需要处理这些不同的错误类型。除了错误处理...

Wiki Parser-crx插件: 语言:中文 (简体) 抓取api数据返回JSON 完整抓取wiki中整个定义的对象json，异步抓取，超时提醒。支持抓取json schema格式数据。支持了integer, bigdecimal的类型，以及数据类型的mock值优化

HttpClient&&HtmlParser(Crawler)网络爬虫: HttpClient 的主要优点在于它的灵活性和可配置性，可以根据需求定制请求行为，如设置超时、添加自定义请求头、处理HTTP连接池等。以下是一些使用HttpClient的基本步骤： 1. 创建HttpClient实例：首先需要创建一个...

parser_skladchina: 6. **异常处理和速率限制**：为了避免被网站封禁，爬虫需要处理各种异常，如HTTP错误、请求超时等，并可能需要设置延时或使用代理IP来控制请求速率。 7. **多线程或异步请求**：为了提高效率，开发者可能会使用`...

upwork_cloudfare_parser: 7. **错误处理和重试机制**：在爬虫编程中，经常会遇到网络错误、超时等问题，因此代码中可能包含了try-except结构以及重试策略，以确保程序的稳定运行。 8. **IP代理**：为了避免IP被Upwork或Cloudflare封锁，项目...

Jquery EasyUI Document.pdf: - **timeout**：设置超时值，单位为毫秒，如果加载超过这个时间，则触发超时事件。 ### EasyUI 事件和方法 EasyUI 的组件在执行过程中可以触发一些事件，并且拥有一些方法供调用： - **onProgress**：在模块成功...

parser_edadil:在edadil中解析产品: 7. **异常处理**：考虑到网络请求可能出现的问题，如超时、重定向、验证码等，程序应该包含适当的异常处理机制。 8. **模块化编程**：为了保持代码的可读性和可维护性，通常会将不同功能封装成独立的函数或类，遵循...

jQueryEasyUI方法[归纳].pdf: 通过设置`.base`属性指定EasyUI的根目录，`.load`方法用于加载特定模块，如示例所示，同时支持加载多语言和设置超时时间。`.onProgress`和`.onLoad`事件分别在模块加载过程中和加载成功后触发。 3. **拖动...

某贴吧爬虫.zip，本项目是一个用于爬取、解析和存储数据的爬虫项目它包含了从目标网站发起请求、解析网页内容、存储数据到文件: 本项目是一个用于爬取、解析和存储数据的爬虫项目。它包含了从目标网站发起请求、解析网页内容、存储数据到...被防爬了，属于正常现象，请少爬取一些页面,为了不被bd防爬，程序中设置了每爬取一页都随机睡眠20-30s,

使用 HttpClient 和 HtmlParser 实现简易爬虫: HttpClient 提供了对HTTP协议的全面支持，包括GET和POST请求，以及其他高级特性，如连接管理、超时设置和重试策略。在使用 HttpClient 时，通常我们需要先创建一个 HttpClient 实例，然后配置连接超时等参数。接着，...

parser:网站rabota.by的解析器: 如果需要定期更新数据，可以将解析器脚本设置为定时任务（如Linux的cron job），或者利用云服务如AWS Lambda进行事件触发执行。 10. **数据隐私和合规性** 在使用抓取的数据时，要尊重用户隐私，确保不涉及敏感...

java.net.URL测试代码: `URLConnection`提供了多种配置方法，例如设置HTTP请求方法（GET、POST等）、设置请求头（如`Content-Type`、`Authorization`等）以及设置超时时间。例如，设置请求头为POST方法并添加自定义头： ```java connection...

用beautifulsoup爬页面: 在实际的网页爬取项目中，我们可能需要处理登录、cookies、session等问题，以及使用代理、设置超时等高级功能。这通常需要结合`requests`库的其他特性，例如： ```python # 设置超时 response = requests.get(url, ...

htmlparser如何连接网络: // 设置超时时间 if (connection.getResponseCode() != HttpURLConnection.HTTP_OK) { throw new RuntimeException("Failed to connect with " + urlStr + ", response code: " + connection.getResponseCode())...

Python爬虫技术入门到高级第四章: 五、高级用法Requests 库还提供了许多高级功能，例如超时设置、证书验证、代理设置、自定义认证等。例如，可以设置请求的超时时间： ```pythonimport requestsurl = '...

基于Java HttpClient和Htmlparser实现网络爬虫代码: 设置超时时间（例如，`setConnectionTimeout` 用于连接超时，`SO_TIMEOUT` 用于读取超时）可以避免因网络延迟导致的阻塞。 2. **创建 GetMethod 对象**：使用 `new GetMethod(url)` 初始化一个针对特定 URL 的 GET ...

jqueryui-API(最完整).pdf: - **timeout (Number)**：超时值（毫秒），如果发生超时则触发事件。默认值为2000毫秒。 **预定义的语言环境：** - **af**：南非荷兰语 - **bg**：保加利亚语 - **ca**：加泰罗尼亚语 - **cs**：捷克语 - **da**：...

Android Volley 请求代码: - **自定义配置**：可以通过Request的构造函数或setXXX方法设置超时时间、重试策略等。 **4. Volley的进阶使用** - **自定义Request**：如果Volley内置的Request类型不能满足需求，可以继承BaseRequest或直接实现...

Global site tag (gtag.js) - Google Analytics