`
xkd321
  • 浏览: 9803 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表

nutch的一些分析

之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识跟多对此话题感兴趣的朋友。   主要类分析:一、org.apache.nutch.crawl.Injector:     1,注入url.txt    2,url标准化    3,拦截url,进行正则校验(regex-urlfilter.txt)    4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数 ...
Nutch爬虫爬取某网页是出现下列异常: ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned nullERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.processGzipEncoded(HttpBase.java:472)ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.HttpResponse ...
robots.txt 什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 语法:最简单的 robots.txt 文件使用两条规则: • User-Agent: 适用下列规则的 ...
表 3.3.  Hibernate配置属性 属性名 用途 hibernate.dialect 一个Hibernate Dialect类名允许Hibernate针对特定的关系数据库生成优化的SQL. 取值 full.classname.of.Dialect hibernate.show_sql 输出所有SQL语句到控制台. 有一个另外的选择是把org.hibernate.SQL这个log category设为debug。 eg. true | false hibernate.format_sql 在log和cons ...
软件命名规范 软件版本阶段说明 Base版: 此版本表示该软件仅仅是一个假页面链接,通常包括所有的功能和页面布局,但是页面中的功能都没有做完整的实现,只是做为整体网站的一个基础架构。 Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。 Beta版: 该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要经过多次测试来进一步消除,此版本主要的修改对像是软件的UI。 RC版: (Release   Candidate)该版本已经相当成熟了,基本上不存在导致错误的 ...
web.xml的配置信息 <!-- log4j配置信息 --> <context-param>   <param-name>log4jConfigLocation</param-name>   <param-value>/WEB-INF/log4j.properties</param-value> </context-param> <context-param>   <param-name>log4jRefreshInterval</param-name>   < ...
1 . 使用java自带的类 import java.util.regex.Matcher; import java.util.regex.Pattern; public class T {     public static void main(String[] args) {         String str = "<html>adfad</html><html>chen</html>";         String regex = "<html>([^<]+)</html&g ...
最近熬夜看世界杯太厉害,开发中老出错,又出现一个异常,自己太粗心了,特此做个标记 2010-6-18 11:25:19 org.apache.catalina.core.StandardWrapperValve invoke 严重: Servlet.service() for servlet action threw exception java.lang.NullPointerException at com.test.WorkAction.save(HtmltaskAction.java:75) at sun.reflect.NativeMethodAccessorImpl.invok ...
Global site tag (gtag.js) - Google Analytics