public class Test001 {
List<String> rsList = new ArrayList<String>();
private Test001() {
try {
loadHtml();
} catch (IOException e) {
e.printStackTrace();
}
}
private void loadHtml() throws IOException {
// 定义一个url类的实例。
URL url = new URL("http://top.baidu.com/buzz/top10.html");
// 以特定格式读取文件流。
InputStreamReader isr = new InputStreamReader(url.openStream(),
"gb2312");
BufferedReader br = new BufferedReader(isr);
String s;
boolean beginFind = false;
while (null != (s = br.readLine())) {
if ("<tbody id=\"listdata\">".equals(s.trim())) {
beginFind = true;
} else if ("</tbody>".equals(s.trim())) {
break;
}
if (beginFind) {
if(s.trim().startsWith("<td><a")){
rsList.add(findContent(s.trim()));
}
}
}
for (int i = 0; i < rsList.size(); i++) {
System.out.println(rsList.get(i));
}
}
public String findContent(String html) {
// 配置html标记。
Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");
Matcher m = p.matcher(html);
String rs = new String(html);
// 找出所有html标记。
while (m.find()) {
// 删除html标记。
rs = rs.replace(m.group(), "");
}
return rs;
}
public static void main(String[] args) throws IOException {
new Test001();
}
}
分享到:
相关推荐
总的来说,通过结合`requests`、`beautifulsoup4`、`pdfkit`和`PyPDF2`,我们可以轻松地实现从HTML网页抓取内容并保存为PDF的功能,这对于数据分析、文档整理或者自动化报告生成等场景都非常实用。
在网页抓取过程中,HTML抓取是最基础的步骤。HTML(HyperText Markup Language)是构成网页的主要标记语言,它包含了各种标签来定义页面结构和内容。抓取HTML数据通常是为了获取网页上的有用信息,如文章内容、产品...
对于“GetHtml”,这可能是你提供的压缩包中的一个文件或者工具,它可能是一个用于获取HTML页面的函数或者脚本。在Python中,可以使用`requests`库获取网页的HTML源码,然后使用BeautifulSoup解析这个源码,如下所示...
- `HtmlPage(Parser parser)`:代表一个HTML页面,提供了许多方便的方法来操作页面内容。 4. **页面内容操作**: - `NodeList getBody()`:获取页面的主体部分。 - `TableTag getTables()`:获取页面中的表格。 ...
在IT行业中,网页抓取是一项重要的技术,它用于自动化地从互联网上收集信息。静态页面抓取工具就是专为此目的设计的软件,它们能够高效地下载并存储网站的静态HTML内容,以便离线查看或者进一步的数据分析。本篇文章...
网页抓取的核心原理在于模拟浏览器的行为,发送HTTP请求到服务器,并接收服务器返回的HTML或其他格式的网页内容。这个过程中,我们通常会关注以下几个关键知识点: 1. **HTTP协议**:HTTP(超文本传输协议)是...
Java网页抓取是一种技术,主要用于从互联网上自动提取或获取数据。这个"java网页抓取demo"项目提供了实现这一功能的实例代码。项目中的jar包是实现网页抓取的关键依赖库,包括Apache Commons Logging和HTTP Client。...
总的来说,C#网页抓取分析涉及了网络编程、HTML解析、数据处理、表格生成和图形化展示等多个方面,这些技术在大数据分析、市场研究、新闻监控等领域有着广泛应用。通过学习和掌握这些技能,开发者能够构建强大的数据...
网页抓取,也被称为网络爬虫或数据抓取,是一种自动化技术,用于从互联网上收集大量信息。在Java EE和Android开发中,网页抓取是一个重要技能,可以帮助开发者获取网站上的结构化数据,如新闻、产品信息、评论等,...
网页抓取,也称为网络爬虫或网页蜘蛛,是一种自动化程序,它按照一定的规则遍历互联网上的页面,提取所需的数据。这个过程涉及HTTP协议的理解,因为大部分网页都是通过HTTP或HTTPS协议传输的。 Java中的HTTP客户端...
这可能是一个Java服务器页面(JSP)文件,用于展示如何在Java环境中进行网页抓取。JSP是创建动态Web内容的一种方式,通常与Servlet一起使用,可以嵌入Java代码来处理HTTP请求并生成HTML响应。 以下是对网页抓取及其...
在ASP.NET框架下,网页抓取主要涉及HTTP请求、HTML解析和数据提取等核心概念。本文将深入探讨这些知识点,并通过实例来演示如何在ASP.NET中实现网页抓取。 首先,HTTP请求是网页抓取的基础。在ASP.NET中,可以使用`...
网页抓取和HTML解析是网络数据获取的重要技术,尤其在信息挖掘、数据分析和搜索引擎优化等领域广泛应用。本项目“蜘蛛程序”使用C#语言实现,具备基础的网页抓取和HTML解析功能,能够自动访问指定的网页,并从中提取...
NULL 博文链接:https://zhousheng193.iteye.com/blog/1096241
在网页抓取中,我们通常使用它的`DownloadString`方法来获取HTML源码。例如: ```csharp using System.Net; WebClient client = new WebClient(); string htmlSource = client.DownloadString(...
网页抓取通常是通过发送HTTP请求到目标服务器,然后解析返回的HTML或XML文档来实现的。在这个过程中,我们通常会用到HTTP库来构建和发送请求,以及HTML解析库来处理返回的网页内容。 在C++中,我们可以使用如...
网页抓取,也被称为网络爬虫或数据抓取,是一种自动化技术,用于从互联网上大量收集和处理数据。这项技术通常被数据分析师、研究人员、市场营销人员以及网站管理员用来获取特定类型的信息,例如市场趋势、用户行为...
网页抓取,也称为网络爬虫或网页蜘蛛,是通过自动化程序遍历互联网上的页面,抓取并存储网页内容的过程。这一过程通常涉及HTTP协议的使用,通过发送请求到服务器获取响应,进而解析网页HTML代码,提取目标数据。 ...
在IT行业中,网页抓取是一项基础且重要的技能,它允许我们自动地从互联网上获取大量信息,进行数据分析、搜索引擎优化、市场研究等用途。在这个Java实现网页抓取的项目中,我们将探讨如何利用Java编程语言来抓取网页...