`

java读取网页链接(转)

阅读更多
java 代码
  1. /**  
  2. * @todo 5) 从链接urlPath读取文件内容,存储到filePath文件中  
  3. * @param filePath String  
  4. * @param urlPath String  
  5. * @return String  
  6. */  
  7. public String createHtmlFile(String filePath, String urlPath)   
  8.   
  9. {   
  10. try  
  11. {   
  12. Util.log("urlPath="+urlPath);   
  13.   
  14. URL url = new URL(urlPath);   
  15. URLConnection urlConnection = url.openConnection();   
  16. urlConnection.setAllowUserInteraction(false);   
  17. // InputStream urlStream = url.openStream();   
  18. InputStream urlStream = urlConnection.getInputStream();//.openStream();   
  19. byte b[] = new byte[1024];   
  20. int numRead = urlStream.read(b);   
  21. String content = new String(b, 0, numRead);   
  22. StringBuffer tempHtml = new StringBuffer(); //   
  23. while ( (numRead != -1) && (content.length() < MAXSIZE))   
  24. {   
  25. numRead = urlStream.read(b);   
  26. if (numRead != -1)   
  27. {   
  28. String newContent = new String(b, 0, numRead);   
  29. content += newContent;   
  30. }   
  31. }   
  32. tempHtml = tempHtml.append(content);   
  33. FileOperation.writeFromBuffer(filePath, tempHtml);   
  34. return content;   
  35. }   
  36.   
  37. catch (IOException e)   
  38. {   
  39. e.printStackTrace();   
  40. Util.log("ERROR: couldn't open URL ");   
  41. return "";   
  42. }   
  43. }   

 

 

为什么不用InputStreamReader去读文件呢,可以用指定编码方式去读取文件,设置读取方式为GBK就可以了



同意,采用如下方法就可以了:

java 代码
  1. /**  
  2. * @todo 5) 从链接urlPath读取文件内容,存储到filePath文件中 中文问题已经解决了  
  3. * @param filePath String  
  4. * @param urlPath String  
  5. * @return String  
  6. */  
  7. public String createHtmlFile(String filePath, String urlPath)   
  8.   
  9. {   
  10. try  
  11. {   
  12. Util.log("urlPath="+urlPath);   
  13.   
  14. URL url = new URL(urlPath);   
  15.   
  16. URLConnection urlConnection = url.openConnection();   
  17. urlConnection.setAllowUserInteraction(false);   
  18. InputStreamReader isr = new InputStreamReader(urlConnection.getInputStream());   
  19. BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));   
  20. //使用openStream得到一输入流并由此构造一个BufferedReader对象   
  21. String inputLine;   
  22. String content="";   
  23. StringBuffer tempHtml = new StringBuffer(); //   
  24. //从输入流不断的读数据,直到读完为止   
  25. while ((inputLine = in.readLine()) != null)   
  26.   
  27. {   
  28. //content=content+inputLine+"/n";   
  29. //tempHtml.append(inputLine+"/n");   
  30. tempHtml.append(inputLine+"/n");   
  31. }   
  32.   
  33.   
  34.   
  35. //Util.log("*******************************************************");   
  36. //Util.log(content.toString());   
  37. //Util.log("*******************************************************");   
  38. //tempHtml = tempHtml.append(content);   
  39. FileOperation.writeFromBuffer(filePath, tempHtml);   
  40. return content;   
  41. }   
  42.   
  43. catch (IOException e)   
  44. {   
  45. e.printStackTrace();   
  46. Util.log("ERROR: couldn't open URL ");   
  47. return "";   
  48. }   
  49. }   
分享到:
评论
3 楼 11lingxian 2007-09-15  
两位大侠
是我在贴得时候有问题

程序没那么多问题吧

我这是转别人的
我用的挺好
当然要改进一下

知道原理就好啦

多谢两位
2 楼 pikachu 2007-09-14  
发贴子不动脑子,隐藏!!
1 楼 liquidthinker 2007-09-14  
这段程序太多问题了

相关推荐

    Java读取word文档内容并输出成网页(含图片,公式)

    在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...

    URL转换为PDF的Java实现

    总的来说,Java环境下URL转PDF的方法多样,可以根据具体需求和环境选择合适的方式。无论是通过解析HTML内容、使用渲染引擎还是借助Web自动化工具,Java都能提供相应的库和支持来满足这些需求。在实际应用中,可能还...

    java读取PDF显示于浏览器

    Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...

    实现java读取网页内容并下载网页中出现的图片.pdf

    在Java编程中,读取网页内容并下载网页中出现的图片是一项常见的任务,尤其是在网络爬虫或者数据分析的应用中。以下是如何使用Java实现这一功能的详细步骤: 首先,我们需要使用`java.net.URL`类来创建一个URL对象...

    Java爬虫网页上的所有链接网址.zip_java 网页爬虫_java网页爬虫_爬取所有链接_网页爬虫链接

    运行这个程序时,Java虚拟机(JVM)会加载并执行这个字节码,实现网页链接的爬取功能。 总的来说,这个Java爬虫项目专注于获取网页上的所有链接,对于初学者而言,这是一个很好的学习资源,能够帮助理解网络爬虫的...

    java 读取html过滤标签

    在Java编程中,读取HTML并过滤特定标签是一项常见的任务,尤其在处理网页抓取、数据提取或构建网络爬虫时。这篇博文链接虽然没有提供具体的内容,但我们可以通过标题和标签来推测其主要讨论的内容。这里我们将深入...

    aspose.word 解析word读取及word转pdf、转html

    Aspose.Word是一款强大的编程库,专门用于处理Microsoft Word文档,包括读取、写入、转换和操作DOC、DOCX格式的文件。它提供了多种API,支持多种编程语言,如Java、.NET、PHP等,使得开发者能够轻松地在应用程序中...

    java将markdown文档转换成html,生成左侧目录

    Markdown是一种轻量级的标记语言,它...总之,Java实现的Markdown转HTML工具,特别是带目录的功能,对于提升技术文档的阅读体验有着显著的作用。通过学习和使用这样的工具,开发者可以更高效地管理和分享他们的知识。

    java获取网网页中出现的图片及判断网页代码中是否包含有效图片

    在Java中,可以利用`java.net.URL`和`java.net.URLConnection`类来访问和读取网页内容,再通过正则表达式匹配图片链接。以下是一种基本的实现方式: 1. **使用URL类访问网页**:首先,需要使用`java.net.URL`类创建...

    java获取百度网盘真实下载链接的方法

    Java获取百度网盘真实下载链接的方法涉及到网络编程和解析网页数据的技术,主要步骤包括发送HTTP请求、解析HTML页面以及提取所需信息。以下是对这个过程的详细说明: 首先,要获取百度网盘的真实下载链接,我们需要...

    java 解析 chm 文件

    Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式,它包含了多个HTML页面、图像和其他资源,并使用了一种特殊的压缩方法存储。在Java中处理CHM...

    java将网页保存成mht格式文件

    1. **抓取网页内容**:首先,你需要使用`java.net.URL`和`java.net.URLConnection`类来打开并读取网页内容。这些类允许你创建到网页的连接,并获取HTTP响应。 2. **解析HTML**:得到网页内容后,可以使用HTML解析库...

    Java抓取网页数据Demo

    在Java中,我们可以使用`java.net.URL`类来建立与目标网页的连接,并通过`java.io.BufferedReader`读取响应。例如: ```java URL url = new URL("http://example.com"); HttpURLConnection connection = ...

    java URL转PDF文件(完美支持中文)

    3. **处理HTML内容**:使用`Jsoup`或者`java.util.jsoup`库解析HTML,它可以很好地处理网页结构,包括表格、图像、链接等。同时,`Jsoup`能正确处理中文字符。 4. **创建PDF文档**:使用`...

    java获取网页主信息之五:测试

    在Java编程领域,获取网页主信息是一项常见的任务,特别是在数据抓取、网页解析以及网络爬虫等应用场景中。本主题将深入探讨如何使用Java来提取网页的主要信息,以实现更高效的数据处理。以下是对给定标题和描述的...

    利用POI将word转换成html实现在线阅读

    5. **在线阅读**:将生成的HTML文件上传至服务器,并在网页中通过iframe或者直接链接的方式展示,用户即可在线预览和阅读。 在实际操作中,需要注意以下几点: - **兼容性问题**:尽管POI库很强大,但不是所有Word...

    JAVA线程根据给定URL生成网页快照

    在Java编程中,生成网页快照是一项常见的任务,它主要用于数据抓取、搜索引擎优化(SEO)或者是为了离线浏览。这个任务通常涉及到网络编程、多线程和网页解析技术。以下将详细介绍如何根据给定的URL利用Java实现线程...

    java链接生成二维码

    Java作为一种广泛使用的编程语言,提供了多种库来实现链接到二维码的转换。本篇文章将详细探讨如何使用Java来生成二维码,并结合微信朋友圈的场景进行讨论。 首先,我们需要了解二维码的基本原理。二维码(Quick ...

    实现word文件转换成html文件实现在线打开预览word文件

    - 开源库如Apache POI (Java) 和python-docx (Python) 可以读取Word文档,并允许开发者自定义转换过程。 - 第三方服务和API,如Google Docs API或Aspose,提供了程序化的文件转换功能。 4. **HTML预览** - 转换...

    Java用正则表达式如何读取网页内容

    它使用了`java.net.URL`和`java.io.BufferedReader`类来建立网络连接并读取网页的每一行内容,最后将其拼接成一个完整的字符串。 ```java public String getOneHtml(String htmlurl) throws IOException { URL url...

Global site tag (gtag.js) - Google Analytics