htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或
提取html。它能超高速解析html。
该程序是基于命令窗口模式,用htmlparser去抓取页面上的天气信息。
这是网页的截图
通过观察地址栏,我们可以知道页面接收一个中文的参数,这个参数为城市名,所以我们在程序中可以接收用户传进来的城市名来的道相对应的网页。
程序的包结构如下
Weather的属性
private String city;//城市
private String updateTime;//更新时间
private String dateDesc;//时间描述
private WeatherPoint nowWeather;
private List<WeatherPoint> offDayWeather; //接下来几天的天气
WeatherPoint属性
private String dateDesc;
private String dayT;
private String nightT;
private String dayState;//白天天气状况
private String nightState;//夜晚天气状况
private String dayWind;//白天风向
private String nightWind;//夜晚风向
private String dayWindLevel;//白天风力
private String nightWindLevel;//夜晚风力
WetherUtil
public static Weather getWeather(String city)//通过用户传入的城市名得到封装好的Weather,就可在前台输出信息。
当前的版本只提取一部分基本信息,可以继续扩展提取更多的天气信息。
不过这种得到天气方法有很多问题:
1.方法没有通用行,只能针对一个一个网站设计一个规则。
2.完全依赖于网站的实现,但网站设计更改了,我们的程序就跑不动了。
3.效率不高,要把网站的源码都下下来,再分析,提取出内容。
……
最好的代替方案是调用天气网站提供API。
程序运行界面
程序下载:http://dl.iteye.com/topics/download/11f8144d-ef99-3392-a97c-e7a64b168df5
源码下载:http://dl.iteye.com/topics/download/4e2d3236-d4b7-3bb0-9bfe-edac51015fe4
- 大小: 71.6 KB
- 大小: 10.3 KB
- 大小: 31.7 KB
- 大小: 47.7 KB
分享到:
相关推荐
基于HTMLParser的Web信息抽取系统的设计与实现,是一项旨在从网页中自动提取特定信息的技术方案。随着互联网信息的爆炸性增长,如何从海量数据中快速定位到有价值的信息成为了一个亟待解决的问题。传统的HTML页面...
本项目就是利用HTMLParser库来编写一个基础的网页爬虫,用于爬取新浪新闻的数据,并将抓取到的数据存储到Excel表格中。以下是关于这个项目的一些关键知识点和实现细节: 1. **HTMLParser库**:HTMLParser是一个开源...
在这个基于HTMLParser的爬虫示例中,我们主要关注如何利用这个库来提取网页上的图片资源。爬虫是互联网数据挖掘的重要工具,它能够自动遍历网页并收集相关信息。 首先,我们需要理解HTMLParser的基本工作原理。...
【标题】基于htmlparser的ed2k搜索存放mysql的Java工具 这个项目是一个Java应用程序,其核心功能是利用htmlparser库来抓取ed2k网络中的链接和相关信息,然后将这些数据存储到MySQL数据库中。htmlparser是一个强大的...
【Portlet天气预报】是一个基于Web的实用工具,它整合在门户环境中,为用户提供便捷的天气查询服务。这个项目利用了Portlet技术,一个在企业级应用中常见的组件化开发方式,来创建一个轻量级、可重用的模块。Portlet...
META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....
在这个例子中,我们将深入理解如何利用HTMLParser来抓取指定网站的数据。 首先,HTMLParser库提供了一个解析器类,它能够读取HTML源码,并将其转化为易于处理的结构。通过这个库,我们可以方便地定位和提取页面上的...
首先,我们需要导入Python的`HTMLParser`模块。在Python 3中,这个模块已经被重命名为`html.parser`,因此应该导入`html.parser`,而不是`HTMLParser`。以下是如何导入的示例: ```python from ...
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
网络爬虫,也称为网络蜘蛛或Web抓取器,是一种自动浏览互联网并收集信息的程序。它广泛应用于搜索引擎优化、数据分析、市场研究等多个领域。 在Python中,HTMLParser是内置的HTML解析器,它允许开发者编写自定义的...
2. **示例项目**:一个或多个使用HTMLParser.net的示例应用程序,展示了如何导入库、初始化解析器、执行查询和处理HTML元素。 3. **文档**:可能包含使用指南、API参考或示例代码注释,帮助开发者理解和使用这个库。...
在C#中,HTMLParser可能采用了递归下降解析器或基于事件的解析器模式。递归下降解析器通常使用函数或方法的递归来匹配HTML标记,而基于事件的解析器则在遇到特定的HTML元素时触发事件,使得处理更加灵活。 标签`c# ...
基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...
在描述中提到的“org.htmlparser.Node”和其他的.class文件,这些都是HTMLParser库的核心组成部分。`org.htmlparser.Node` 是HTMLParser中的一个关键接口,它代表HTML文档中的一个节点,可以是元素(Element)、注释...
5. **事件驱动的解析**:HTMLParser支持基于事件的解析模式,即监听器模式。开发者可以注册监听器(如`TagStartListener`、`TagEndListener`等),在遇到特定HTML标签时触发相应动作。 6. **处理不规范的HTML**:...
2. **DOM(Document Object Model)**:HTMLParser基于DOM模型工作,这意味着它会构建一个树形结构来表示HTML文档,其中每个节点代表HTML的一个部分,如元素、属性或文本。用户可以通过遍历DOM树来访问和修改HTML...