`
lin358
  • 浏览: 65268 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

parser设置超时

    博客分类:
  • j2se
阅读更多
前段时间用parser编写了一个爬虫,部署后发现有的网页没有返回值时(或许是这样...其实最后也没搞懂为什么..囧)会出现程序卡死的问题,所以想给parser设置个超时,后来发现parser完全没有setReadTimeout之类的方法,经过查询相关资料发现只要这样就可以了,下面是解决方式
URL urlPage = new URL(urlString);
			HttpURLConnection conn = (HttpURLConnection) urlPage.openConnection();
			conn.setConnectTimeout(5000);
			conn.setReadTimeout(5000);
			Parser parser = new Parser(conn);
分享到:
评论

相关推荐

    Python-MercuryParser非结构化网页信息提取工具

    Mercury Parser允许你通过传递额外参数来自定义解析行为,比如设置代理、超时时间等。这些参数可以在`parse`方法中以关键字参数的形式传递。 7. **错误处理和调试**: 在实际使用中,可能会遇到网络问题或无法...

    twitter_data_parser-master.rar

    7. **错误处理**:在处理API请求和数据时,需要考虑异常处理,如请求超时、API限制等问题。 8. **测试**:通过单元测试和集成测试确保代码的正确性。 9. **持续集成/持续部署(CI/CD)**:可能包含GitHub Actions或...

    jQuery AJAX timeout 超时问题详解

    在AJAX请求的error事件中,除了超时之外,还可能遇到其他类型的错误,如服务器错误("error")、未修改("notmodified")和解析错误("parsererror")。开发者可以根据需要处理这些不同的错误类型。 除了错误处理...

    Wiki Parser-crx插件

    语言:中文 (简体) 抓取api数据返回JSON 完整抓取wiki中整个定义的对象json,异步抓取,超时提醒。支持抓取json schema格式数据。支持了integer, bigdecimal的类型,以及数据类型的mock值优化

    HttpClient&&HtmlParser(Crawler)网络爬虫

    HttpClient 的主要优点在于它的灵活性和可配置性,可以根据需求定制请求行为,如设置超时、添加自定义请求头、处理HTTP连接池等。以下是一些使用HttpClient的基本步骤: 1. 创建HttpClient实例:首先需要创建一个...

    parser_skladchina

    6. **异常处理和速率限制**:为了避免被网站封禁,爬虫需要处理各种异常,如HTTP错误、请求超时等,并可能需要设置延时或使用代理IP来控制请求速率。 7. **多线程或异步请求**:为了提高效率,开发者可能会使用`...

    upwork_cloudfare_parser

    7. **错误处理和重试机制**:在爬虫编程中,经常会遇到网络错误、超时等问题,因此代码中可能包含了try-except结构以及重试策略,以确保程序的稳定运行。 8. **IP代理**:为了避免IP被Upwork或Cloudflare封锁,项目...

    Jquery EasyUI Document.pdf

    - **timeout**:设置超时值,单位为毫秒,如果加载超过这个时间,则触发超时事件。 ### EasyUI 事件和方法 EasyUI 的组件在执行过程中可以触发一些事件,并且拥有一些方法供调用: - **onProgress**:在模块成功...

    parser_edadil:在edadil中解析产品

    7. **异常处理**:考虑到网络请求可能出现的问题,如超时、重定向、验证码等,程序应该包含适当的异常处理机制。 8. **模块化编程**:为了保持代码的可读性和可维护性,通常会将不同功能封装成独立的函数或类,遵循...

    jQueryEasyUI方法[归纳].pdf

    通过设置`.base`属性指定EasyUI的根目录,`.load`方法用于加载特定模块,如示例所示,同时支持加载多语言和设置超时时间。`.onProgress`和`.onLoad`事件分别在模块加载过程中和加载成功后触发。 3. **拖动...

    某贴吧爬虫.zip,本项目是一个用于爬取、解析和存储数据的爬虫项目 它包含了从目标网站发起请求、解析网页内容、存储数据到文件

    本项目是一个用于爬取、解析和存储数据的爬虫项目。 它包含了从目标网站发起请求、解析网页内容、存储数据到...被防爬了,属于正常现象,请少爬取一些页面,为了不被bd防爬,程序中设置了每爬取一页都随机睡眠20-30s,

    使用 HttpClient 和 HtmlParser 实现简易爬虫

    HttpClient 提供了对HTTP协议的全面支持,包括GET和POST请求,以及其他高级特性,如连接管理、超时设置和重试策略。在使用 HttpClient 时,通常我们需要先创建一个 HttpClient 实例,然后配置连接超时等参数。接着,...

    parser:网站rabota.by的解析器

    如果需要定期更新数据,可以将解析器脚本设置为定时任务(如Linux的cron job),或者利用云服务如AWS Lambda进行事件触发执行。 10. **数据隐私和合规性** 在使用抓取的数据时,要尊重用户隐私,确保不涉及敏感...

    java.net.URL测试代码

    `URLConnection`提供了多种配置方法,例如设置HTTP请求方法(GET、POST等)、设置请求头(如`Content-Type`、`Authorization`等)以及设置超时时间。例如,设置请求头为POST方法并添加自定义头: ```java connection...

    用beautifulsoup爬页面

    在实际的网页爬取项目中,我们可能需要处理登录、cookies、session等问题,以及使用代理、设置超时等高级功能。这通常需要结合`requests`库的其他特性,例如: ```python # 设置超时 response = requests.get(url, ...

    htmlparser如何连接网络

    // 设置超时时间 if (connection.getResponseCode() != HttpURLConnection.HTTP_OK) { throw new RuntimeException("Failed to connect with " + urlStr + ", response code: " + connection.getResponseCode())...

    Python爬虫技术入门到高级第四章

    五、高级用法Requests 库还提供了许多高级功能,例如超时设置、证书验证、代理设置、自定义认证等。例如,可以设置请求的超时时间: ```pythonimport requestsurl = '...

    基于Java HttpClient和Htmlparser实现网络爬虫代码

    设置超时时间(例如,`setConnectionTimeout` 用于连接超时,`SO_TIMEOUT` 用于读取超时)可以避免因网络延迟导致的阻塞。 2. **创建 GetMethod 对象**:使用 `new GetMethod(url)` 初始化一个针对特定 URL 的 GET ...

    jqueryui-API(最完整).pdf

    - **timeout (Number)**:超时值(毫秒),如果发生超时则触发事件。默认值为2000毫秒。 **预定义的语言环境:** - **af**:南非荷兰语 - **bg**:保加利亚语 - **ca**:加泰罗尼亚语 - **cs**:捷克语 - **da**:...

    Android Volley 请求代码

    - **自定义配置**:可以通过Request的构造函数或setXXX方法设置超时时间、重试策略等。 **4. Volley的进阶使用** - **自定义Request**:如果Volley内置的Request类型不能满足需求,可以继承BaseRequest或直接实现...

Global site tag (gtag.js) - Google Analytics