java 代码
-
-
-
-
-
-
- public String createHtmlFile(String filePath, String urlPath)
-
- {
- try
- {
- Util.log("urlPath="+urlPath);
-
- URL url = new URL(urlPath);
- URLConnection urlConnection = url.openConnection();
- urlConnection.setAllowUserInteraction(false);
-
- InputStream urlStream = urlConnection.getInputStream();
- byte b[] = new byte[1024];
- int numRead = urlStream.read(b);
- String content = new String(b, 0, numRead);
- StringBuffer tempHtml = new StringBuffer();
- while ( (numRead != -1) && (content.length() < MAXSIZE))
- {
- numRead = urlStream.read(b);
- if (numRead != -1)
- {
- String newContent = new String(b, 0, numRead);
- content += newContent;
- }
- }
- tempHtml = tempHtml.append(content);
- FileOperation.writeFromBuffer(filePath, tempHtml);
- return content;
- }
-
- catch (IOException e)
- {
- e.printStackTrace();
- Util.log("ERROR: couldn't open URL ");
- return "";
- }
- }
为什么不用InputStreamReader去读文件呢,可以用指定编码方式去读取文件,设置读取方式为GBK就可以了
同意,采用如下方法就可以了:
java 代码
-
-
-
-
-
-
- public String createHtmlFile(String filePath, String urlPath)
-
- {
- try
- {
- Util.log("urlPath="+urlPath);
-
- URL url = new URL(urlPath);
-
- URLConnection urlConnection = url.openConnection();
- urlConnection.setAllowUserInteraction(false);
- InputStreamReader isr = new InputStreamReader(urlConnection.getInputStream());
- BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
-
- String inputLine;
- String content="";
- StringBuffer tempHtml = new StringBuffer();
-
- while ((inputLine = in.readLine()) != null)
-
- {
-
-
- tempHtml.append(inputLine+"/n");
- }
-
-
-
-
-
-
-
- FileOperation.writeFromBuffer(filePath, tempHtml);
- return content;
- }
-
- catch (IOException e)
- {
- e.printStackTrace();
- Util.log("ERROR: couldn't open URL ");
- return "";
- }
- }
分享到:
相关推荐
在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...
总的来说,Java环境下URL转PDF的方法多样,可以根据具体需求和环境选择合适的方式。无论是通过解析HTML内容、使用渲染引擎还是借助Web自动化工具,Java都能提供相应的库和支持来满足这些需求。在实际应用中,可能还...
Java读取PDF并显示在浏览器是一项常见的技术需求,特别是在Web应用中,用户可能需要预览或下载PDF文档。为了实现这一功能,我们需要了解几个关键知识点: 1. **PDF阅读器集成**:描述中提到的前提是本地电脑需要...
在Java编程中,读取网页内容并下载网页中出现的图片是一项常见的任务,尤其是在网络爬虫或者数据分析的应用中。以下是如何使用Java实现这一功能的详细步骤: 首先,我们需要使用`java.net.URL`类来创建一个URL对象...
运行这个程序时,Java虚拟机(JVM)会加载并执行这个字节码,实现网页链接的爬取功能。 总的来说,这个Java爬虫项目专注于获取网页上的所有链接,对于初学者而言,这是一个很好的学习资源,能够帮助理解网络爬虫的...
在Java编程中,读取HTML并过滤特定标签是一项常见的任务,尤其在处理网页抓取、数据提取或构建网络爬虫时。这篇博文链接虽然没有提供具体的内容,但我们可以通过标题和标签来推测其主要讨论的内容。这里我们将深入...
Aspose.Word是一款强大的编程库,专门用于处理Microsoft Word文档,包括读取、写入、转换和操作DOC、DOCX格式的文件。它提供了多种API,支持多种编程语言,如Java、.NET、PHP等,使得开发者能够轻松地在应用程序中...
Markdown是一种轻量级的标记语言,它...总之,Java实现的Markdown转HTML工具,特别是带目录的功能,对于提升技术文档的阅读体验有着显著的作用。通过学习和使用这样的工具,开发者可以更高效地管理和分享他们的知识。
在Java中,可以利用`java.net.URL`和`java.net.URLConnection`类来访问和读取网页内容,再通过正则表达式匹配图片链接。以下是一种基本的实现方式: 1. **使用URL类访问网页**:首先,需要使用`java.net.URL`类创建...
Java获取百度网盘真实下载链接的方法涉及到网络编程和解析网页数据的技术,主要步骤包括发送HTTP请求、解析HTML页面以及提取所需信息。以下是对这个过程的详细说明: 首先,要获取百度网盘的真实下载链接,我们需要...
Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式,它包含了多个HTML页面、图像和其他资源,并使用了一种特殊的压缩方法存储。在Java中处理CHM...
1. **抓取网页内容**:首先,你需要使用`java.net.URL`和`java.net.URLConnection`类来打开并读取网页内容。这些类允许你创建到网页的连接,并获取HTTP响应。 2. **解析HTML**:得到网页内容后,可以使用HTML解析库...
在Java中,我们可以使用`java.net.URL`类来建立与目标网页的连接,并通过`java.io.BufferedReader`读取响应。例如: ```java URL url = new URL("http://example.com"); HttpURLConnection connection = ...
3. **处理HTML内容**:使用`Jsoup`或者`java.util.jsoup`库解析HTML,它可以很好地处理网页结构,包括表格、图像、链接等。同时,`Jsoup`能正确处理中文字符。 4. **创建PDF文档**:使用`...
在Java编程领域,获取网页主信息是一项常见的任务,特别是在数据抓取、网页解析以及网络爬虫等应用场景中。本主题将深入探讨如何使用Java来提取网页的主要信息,以实现更高效的数据处理。以下是对给定标题和描述的...
5. **在线阅读**:将生成的HTML文件上传至服务器,并在网页中通过iframe或者直接链接的方式展示,用户即可在线预览和阅读。 在实际操作中,需要注意以下几点: - **兼容性问题**:尽管POI库很强大,但不是所有Word...
在Java编程中,生成网页快照是一项常见的任务,它主要用于数据抓取、搜索引擎优化(SEO)或者是为了离线浏览。这个任务通常涉及到网络编程、多线程和网页解析技术。以下将详细介绍如何根据给定的URL利用Java实现线程...
Java作为一种广泛使用的编程语言,提供了多种库来实现链接到二维码的转换。本篇文章将详细探讨如何使用Java来生成二维码,并结合微信朋友圈的场景进行讨论。 首先,我们需要了解二维码的基本原理。二维码(Quick ...
- 开源库如Apache POI (Java) 和python-docx (Python) 可以读取Word文档,并允许开发者自定义转换过程。 - 第三方服务和API,如Google Docs API或Aspose,提供了程序化的文件转换功能。 4. **HTML预览** - 转换...
它使用了`java.net.URL`和`java.io.BufferedReader`类来建立网络连接并读取网页的每一行内容,最后将其拼接成一个完整的字符串。 ```java public String getOneHtml(String htmlurl) throws IOException { URL url...