转网络爬虫（Spider）Java实现原理

spider

“网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”，我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”，并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。Java语言在此非常适合构建一个“蜘蛛”程序，其内建了对HTTP协议的支持，通过它可以传输大部分的网页信息；其还内建了一个HTML解析器，正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。文章后面例1的示例程序，将会扫描一个网站，并寻找死链接。使用这个程序时需先输入一个URL并单击“Begin”按 ...

2015-03-10 23:25
浏览 466
评论(0)
分类:互联网

网络爬虫（Spider）Java实现原理（转载）

spider

网络爬虫（Spider）Java实现原理 “网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”，我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”，并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。 * Java语言在此非常适合构建一个“蜘蛛”程序，其内建了对HTTP协议的支持，通过它可以传输大部分的网页信息；其还内建了一个HTML解析器，正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。文章后面例 ...

2015-03-10 23:19
浏览 523
评论(0)
分类:互联网

网络爬虫之Spider

spider

网络爬虫是搜索引擎的一个重要的部分。爬虫的根本原理就是下载页面，然后进行解析。Web上的存储着海量数据，怎么样才能将海量数据尽快的下载到本机上？这是网络爬虫设计的一个方案。采取多线程技术。以下代码实现了将网页的数据存储到XML文档。希望能提出更好的方案。 [java] view plaincopy

2015-03-10 23:12
浏览 839
评论(0)
分类:Web前端

MYSQL 5.6之DBA与开发者指南

博客分类：

DB

mysql

构建下一代Web应用与服务简单来说，MySQL 5.6改进了数据库核心的各个功能领域，包括：更好的性能和可伸缩性改进InnoDB引擎的事务吞吐量改进优化器的查询执行时间和诊断更好的应用可用性，支持在线DDL/Schema修改增强开发者的灵活性，支持通过Memcached API访问InnoDB，实现NoSQL功能改进复制功能，满足高性能，自修复的分布式部署需求

2015-03-10 23:10
浏览 610
评论(0)
分类:数据库

数据库范式总结

博客分类：

DB

数据库表结构设计时，遵从一定的范式（NF，Noraml Form）可以减少数据冗余和操作异常。第一范式（1NF） 1NF指的是每个属性值都是不可再分的。满足1NF的关系被称为规范化的关系，1NF也是关系模式应具备的最起码的条件。比如有这样一张表user的两列： name

2015-03-10 23:08
浏览 322
评论(0)
分类:数据库

网络爬虫

博客分类：

互联网

最近在写一个程序，去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。基本组件网络爬虫也叫做网络蜘蛛，是一种互联网机器人，把需要的网页撷取下来，组织成适当格式存储。它是搜索引擎的重要组成部分，虽然从技术实现上来说，它的难度往往要小于对于得到的网页信息的处理。

2015-03-05 22:54
浏览 428
评论(0)
分类:互联网

互联网数据聚合

博客分类：

互联网

我们经常需要从互联网上获取数据，在很多情况下，你需要的是特定信息，或者说是符合某些条件的信息，比如：这条需求隐含着两个有普遍意义的步骤：从互联网上聚合符合特定条件的信息；当满足阈值条件时，以某种方式通知用户。

2015-03-05 22:53
浏览 385
评论(0)
分类:互联网

JVM致命错误日志（hs_err_pid.log）解读

博客分类：

jvm

致命错误出现的时候，JVM生成了hs_err_pid<pid>.log这样的文件，其中往往包含了虚拟机崩溃原因的重要信息。因为经常遇到，在这篇文章里，我挑选了一个，并且逐段分析它包含的内容（文件可以在文章最后下载）。默认情况下文件是创建在工作目录下的（如果没权限创建的话JVM会尝试把文件写到/tmp这样的临时目录下面去），当然，文件格式和路径也可以通过参数指定，比如：

2015-03-05 22:51
浏览 1359
评论(0)
分类:开源软件

JVM问题定位工具

博客分类：

java

JDB JDB是基于文本和命令行的调试工具，Jikes在JDB的基础上提供了GUI。熟悉JDB还是有价值的，很多情况下需要我们在命令行下完成简单的debug问题定位。

2015-03-05 22:50
浏览 279
评论(0)
分类:行业应用

转载 Ehcache详细解读

博客分类：

缓存

缓存 cache

转载自 http://raychase.iteye.com/blog/1545906 Ehcache 是现在最流行的纯Java开源缓存框架，配置简单、结构清晰、功能强大，最初知道它，是从Hibernate的缓存开始的。网上中文的EhCache材料以简单介绍和配置方法居多，如果你有这方面的问题，请自行google；对于API，官网上介绍已经非常清楚，请参见官网；但是很少见到特性说明和对实现原理的分析，因此在这篇文章里面，我会详细介绍和分析EhCache的特性，加上一些自己的理解和思考，希望对缓存感兴趣的朋友有所收获。一、特性一览，来自官网，简单翻译一下： 1、快速轻量过去几年 ...

2015-03-05 22:42
浏览 412
评论(0)
分类:Web前端

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

转网络爬虫（Spider）Java实现原理

网络爬虫（Spider）Java实现原理（转载）

网络爬虫之Spider

MYSQL 5.6之DBA与开发者指南

数据库范式总结

网络爬虫

互联网数据聚合

JVM致命错误日志（hs_err_pid.log）解读

JVM问题定位工具

转载 Ehcache详细解读

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>