- 浏览: 9803 次
- 性别:
- 来自: 杭州
最新评论
文章列表
nutch的一些分析
- 博客分类:
- NUTCH
之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识跟多对此话题感兴趣的朋友。
主要类分析:一、org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数 ...
Nutch爬虫爬取某网页是出现下列异常:
ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned nullERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.processGzipEncoded(HttpBase.java:472)ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.HttpResponse ...
robots.txt
什么是robots.txt?
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robots.txt 文件使用两条规则:
• User-Agent: 适用下列规则的 ...
表 3.3. Hibernate配置属性
属性名
用途
hibernate.dialect
一个Hibernate Dialect类名允许Hibernate针对特定的关系数据库生成优化的SQL.
取值 full.classname.of.Dialect
hibernate.show_sql
输出所有SQL语句到控制台. 有一个另外的选择是把org.hibernate.SQL这个log category设为debug。
eg. true | false
hibernate.format_sql
在log和cons ...
软件命名规范
软件版本阶段说明
Base版: 此版本表示该软件仅仅是一个假页面链接,通常包括所有的功能和页面布局,但是页面中的功能都没有做完整的实现,只是做为整体网站的一个基础架构。
Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。
Beta版: 该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要经过多次测试来进一步消除,此版本主要的修改对像是软件的UI。
RC版: (Release Candidate)该版本已经相当成熟了,基本上不存在导致错误的 ...
web.xml的配置信息
<!-- log4j配置信息 -->
<context-param>
<param-name>log4jConfigLocation</param-name>
<param-value>/WEB-INF/log4j.properties</param-value>
</context-param>
<context-param>
<param-name>log4jRefreshInterval</param-name>
< ...
1 . 使用java自带的类
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class T {
public static void main(String[] args) {
String str = "<html>adfad</html><html>chen</html>";
String regex = "<html>([^<]+)</html&g ...
最近熬夜看世界杯太厉害,开发中老出错,又出现一个异常,自己太粗心了,特此做个标记
2010-6-18 11:25:19 org.apache.catalina.core.StandardWrapperValve invoke
严重: Servlet.service() for servlet action threw exception
java.lang.NullPointerException
at com.test.WorkAction.save(HtmltaskAction.java:75)
at sun.reflect.NativeMethodAccessorImpl.invok ...