`
农村哥们
  • 浏览: 293335 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

抓取过程中出现url.openStream()异常

阅读更多
具体信息
java.lang.IllegalArgumentException
at sun.net.www.ParseUtil.decode(ParseUtil.java:179)
at sun.net.www.ParseUtil.toURI(ParseUtil.java:253)
at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:738)
at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:669)

是由于JDK版本BUG问题造成的,这个BUG只出现在jdk1.5_06之前版本,更新最新的就可以解决此问题
分享到:
评论

相关推荐

    java抓取网页三种方式

    在这个示例中,我们使用了 URL 的 openStream() 方法来打开指定的 URL,然后使用 InputStream 读取数据。同时,我们也使用了 OutputStream 来将数据写入到文件中。 知识点: * 使用 URL 连接来抓取网页 * 使用 ...

    java爬虫抓取图片

    InputStream in = url.openStream(); FileOutputStream out = new FileOutputStream(new File("image.jpg")); byte[] buffer = new byte[1024]; int length; while ((length = in.read(buffer)) != -1) { out.write...

    读取指定URL

    首先创建一个URL对象,传入URL字符串,然后可以使用`openStream()`方法打开连接并获取输入流,从而读取URL的内容。以下是一个简单的示例: ```java import java.io.BufferedReader; import java.io....

    python抓取网页图片

    6. **异常处理**:在抓取过程中,可能会遇到各种问题,如网络连接错误、找不到图片等。因此,良好的异常处理机制至关重要。可以使用`try/except`块捕获和处理可能出现的错误,保证程序的健壮性。 7. **自动化脚本**...

    Java爬虫+URL获取Img高宽.zip

    try (InputStream in = new URL(imgUrl).openStream()) { BufferedImage image = ImageIO.read(in); width = image.getWidth(); height = image.getHeight(); } ``` 在实际应用中,我们可能还需要处理异常,管理...

    java写爬虫代码

    BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); ``` 这里通过`openStream()`打开URL的连接并读取其内容。 7. **异常处理**: 在处理网络请求时,经常需要进行异常处理,...

    抓网页有关函数

    2. **打开连接并获取输入流**:`ur.openStream()` 打开到该URL的连接,并返回一个输入流,用于读取服务器响应的数据。 3. **创建BufferedReader对象**:`new BufferedReader(new InputStreamReader(instr))` 创建一...

    htmlparser实现爬虫

    通过`URL`类创建了一个指向目标网站的URL对象,并使用`openStream()`方法获取该URL的输入流。 3. **读取并保存HTML内容**: ```java BufferedReader in = new BufferedReader(new InputStreamReader(instr)); ...

    java实现HTML解析图片批量下载

    在这个过程中,确保处理好异常,例如网络错误或文件I/O异常。同时,可能需要处理相对URL和绝对URL的区别,以及考虑CDN(内容分发网络)或HTTPS等复杂情况。 为了提高效率,你可以考虑使用多线程下载图片,或者使用...

    python 抓取一个网站所有图片并保存

    在Python编程语言中,爬虫是一项非常实用的技术,可以用于自动化地从互联网上抓取大量数据,包括图像。本篇文章将深入探讨如何使用Python来抓取一个网站上的所有图片并将其保存到本地。 首先,我们需要了解基本的...

    利用MSXML2.XmlHttp和Adodb.Stream采集图片

    1. **错误处理**:虽然示例代码中加入了简单的错误处理机制,但在实际应用中还需要更全面地考虑各种可能发生的异常情况,例如网络连接失败、URL无效等问题。 2. **安全性**:直接使用用户提供的URL可能会带来安全...

    读取excel中存入的url进行对应图片地址的爬取

    在实际项目中,可能还需要处理可能出现的异常,如超时、重定向、验证码等。 最后,这个项目名为"jd_spider-master",可能意味着它是针对京东网站的爬虫示例。京东网站可能会有更严格的反爬策略,因此在实际操作时...

    java 抓取网页内容实现代码

    2. **打开连接**:通过`url.openStream()`方法打开到该URL的连接,并获取输入流,以读取网页内容。 3. **BufferedReader**:使用`BufferedReader`从输入流中逐行读取内容,直到读取完所有行。 4. **处理代理**:...

    java 网络爬虫 爬去别人的网页

    通过`openStream()`方法,可以获取到网页的字节流,进一步读取网页内容。 2. **多线程**: 在Java中,多线程可以提高爬虫的效率,让爬虫能够同时处理多个网页的抓取。`java.lang.Thread`类是创建新线程的基础,而...

    htmlparser实现从网页上抓取数据

    2. 使用`openStream()`方法打开连接并获取网页的输入流。 3. 使用`BufferedReader`和`BufferedWriter`进行读写操作,将网页内容逐行读取并写入到指定的文件。 4. `BufferedReader`的`readLine()`方法用于读取输入流...

    android 封装抓取网页信息的实例代码

    `openStream()`方法用于打开与URL对应的连接,并返回输入流,从而可以读取网页内容。 2. **BufferedInputStream和FileOutputStream**:这两个类用于高效地读取和写入文件。`BufferedInputStream`用于提高从网络流中...

    vb获取网页中的图片验证码

    5. **处理异常**:在整个过程中,应该捕获可能出现的错误,如网络连接问题、请求失败等,并给出相应的处理。 6. **自动化识别**:如果需要自动识别验证码,可以结合图像处理库(如OpenCV)或OCR(光学字符识别)...

    www.baidu.com 爬虫

    4. **异常处理**:编写健壮的代码,处理可能出现的网络、解析等问题。 爬虫是一个涉及网络通信、HTML解析、数据存储等多个领域的综合技能。理解这些基本原理并结合实际需求,我们可以构建更复杂、功能强大的爬虫...

    利用python的爬虫技术爬取网上的图片

    在Python编程领域,爬虫技术是一项非常实用的技能,它能帮助我们自动化地从互联网上抓取数据,...在实际应用中,还需要注意遵守网站的robots.txt协议,避免对服务器造成过大的负担,以及处理可能出现的各种异常情况。

    Java爬取 百度图片&Google图片&Bing图片

    Java的FileInputStream和FileOutputStream可以用来读写文件,而URL的openStream()方法可以打开网络连接以读取流式数据。 6. **异常处理**:爬虫过程中可能会遇到各种异常,如网络连接问题、权限问题等。良好的异常...

Global site tag (gtag.js) - Google Analytics