- 浏览: 78461 次
- 性别:
- 来自: 浙江
最新评论
-
qzxfl008:
happysoul 写道
/**
* 获取当前时间的后一天
...
计算下一天 -
happysoul:
/**
* 获取当前时间的后一天
* @param da ...
计算下一天 -
ailongni:
或许 jsoup 更好用些
html解析页面中的A标签 -
qzxfl008:
king_c 写道junit4 什么意思啊
lucene3.1.0 简单分词实例 -
king_c:
junit4
lucene3.1.0 简单分词实例
文章列表
无意中看到一个游戏中有着快速排序的源代码,备份下
import java.util.Comparator;
public class QuickSorter<Type> extends Sorter<Type> {
public void sort(Type[] array, int count, Comparator<Type> comparator) {
quicksort(array, 0, count - 1, comparator);
}
// quick ...
Intent i = new Intent(Intent.ACTION_CALL,Uri.parse("tel:"+phone));
startActivity(i);
在Mainfest中添加权限
<uses-permission android:name="android.permission.CALL_PHONE"></uses-permission>
第一类:属性值为true或false
android:layout_centerHrizontal 水平居中
android:layout_centerVertical 垂直居中
android:layout_centerInparent 相对于父元素完全居中
android:layout_alignParentBottom ...
android开发环境搭建及源码下载
- 博客分类:
- android
我在ubuntu10.04中下载android源码,官方也是推荐使用ubuntu
需要2.6GB空间存储源码,10GB空间完成构建android开发环境
1、检查所需工具Python 2.4 -- 2.7、JDK 6、Git 1.5.4
$python --version
$jdk --version
$git --verison
$sudo apt-get install git
2、安装jdk6
$ sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner"
...
使用Heritrix抓取必须的三个文件order.xml,seeds.txt和state.job
之前使用的是ui配置order.xml,现在已经能抓取自己想要的文件了,就直接把order.xml拿来用修改一下就可以了,order.xml代码如下
<?xml version="1.0" encoding="UTF-8"?><crawl-order xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation=& ...
oracle 11g R2(发行版2)安装图解
- 博客分类:
- 数据库
oracle 11g R2(发行版2)在win7上安装图解
在官网下载如下两个压缩包
解压到database文件夹下,默认是database
双击setup.exe开始安装
如下图
如果电脑满足要求,但是人检查失败的话,可以直接全部忽略掉
接下来就直接确定就是了,
刚装完,发现3G的内存不够用了,一个oracle进程就耗费了8百多兆,桑不起,果断卸了,还是直接在服务器上装个吧。
我的RedHat9字符终端始终是中文乱码显示,今天在网上找了些资料,终于解决了。
首先到http://sourceforge.net/projects/zhcon/files/上下载zhcon-0.2.5.tar.gz和zhcon-0.2.5-to-0.2.6.diff.gz下载下来,放到/tmp下。
tar zxvf zhcon-0.2.5.tar.gz
cd zhcon-0.2.5
zcat ../zhcon-0.2.5-to-0.2.6.diff.gz | patch -p1
./configure
make
make install
接着运行zhcon就可以了 ...
GRUB:在引导装载程序菜单上,键入 [e] 来进入编辑模式。
你会面对一个引导项目列表。查找其中类似以下输出 的句行:
kernel /vmlinuz-2.4.18-0.4 ro root=/dev/hda2
按箭头键直到这一行被突出显示,然后按 [e]。
你现在可在文本结尾处空一格再添加 single 来告诉 GRUB 引导单用户 Linux 模式。按 [Enter] 键来使编辑结果生效。
你会被带会编辑模式屏幕,从这里,按 , GRUB 就会引导单用户 Linux 模式。 结束载入后,你会面对一个与以下相似的 shell 提示:
sh-2.05#
现在,你便可以改变根命令,键 ...
我的电脑是装着双系统win7和fedora14,但是重装了win7之后fedora14的引导就没有了,
所以要修复fedora引导程序,
之前我装fedora是用光盘装的,所以现在就用那个光盘进行修复,用光盘启动进入resume
知道出现shelll。。。选中这个就进入bash接下来就是敲命令
find |grep menu.lst
找到munu.lst的路径
切换到那个文件的路径
cat menu.lst
找到 (hdx,y),比如我的是 (hd0,7)
接着敲命令
grub
grub>root (hd0,7) 记住root 后面有个空格
grub& ...
在Heritrix的 Queue-assignment-policy的设置中。
当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为Heritrix默认使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。
在开发自己的搜索引起的书中提到ELF hash算法,但没有实现的例子,在网上找了下,贴代码,备份以后用
import java.ut ...
package org.archive.crawler.extractor;
import java.util.regex.Matcher;
import javax.management.AttributeNotFoundException;
import org.archive.crawler.datamodel.CoreAttributeConstants;
import org.archive.crawler.datamodel.CrawlURI;
import org.archive.crawler.framework.Processor;
import o ...
package mypackage;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.datamodel.CrawlURI;
import org.arch ...
提供以下几种抓取的范围
1、BroadScope
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓
2、SurtPrefixScope
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白
3、FilterScope
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:h ...
我所使用的是ubuntu11.04版本
到官网下载jdk
sudo makdir /usr/java
sudo chmod 755 jdk-6u23-linux-i586.bin
将jdk文件拷贝到/usr/java/目录下
环境变量配置
sudo ./jdkjdk-6u23-linux-i586.bin //开始安装
sudo gedit /etc/profile //使用vi也可以
export JAVA_HOME=/usr/java/jdk1.6.0_23/
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA ...
以下是heritrix中对JS的扩展,在自己写扩展的时候可以参考这个源代码或值对html或css扩展的源代码
/* Copyright (C) 2003 Internet Archive.
*
* This file is part of the Heritrix web crawler (crawler.archive.org).
*
* Heritrix is free software; you can redistribute it and/or modify
* it under the terms of the GNU Lesser Public Licen ...