使用BDB来存储已爬地址,用int status的各个不同的位,来表示不同的访问状态:
访问过;保存过;修改过 等等
package com.rayeen.spider.vertical.data;
import java.io.File;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import org.apache.hadoop.io.MD5Hash;
import org.apache.log4j.Logger;
import com.sleepycat.je.DatabaseException;
import com.sleepycat.je.Environment;
import com.sleepycat.persist.EntityStore;
import com.sleepycat.persist.PrimaryIndex;
import com.sleepycat.persist.SecondaryIndex;
import com.rayeen.spider.vertical.constant.MetResourceTag;
import com.rayeen.spider.vertical.constant.MsgConstant;
import com.rayeen.spider.vertical.util.ResutTree;
import org.apache.commons.lang.*;
public class MetResourceProtocolImpl implements MetResourceProtocol {
public MetResourceProtocolImpl(String name){
this.name=name;
}
String name;
static final Logger LOG = Logger.getLogger(ResutTree.class);
public static String openMode = "append";
public static int hitCnt = 0;
private static MyDbEnv myDbEnv = new MyDbEnv();
static EntityStore da;
static PrimaryIndex<String, MetResourceBE> infoMap = null;
static SecondaryIndex<String, String, MetResourceBE> infoMapByDigest = null;
static int flushCnt = 0;
//初始化BDB数据库环境
public synchronized void initilize() throws DatabaseException {
Environment myDbEnvironment = null;
File met = new File("./metResource");
if(!met.exists()){
met.mkdir();
}
File file = new File("./metResource/"+name);
try {
if (!file.exists()) {
if (!file.exists()) {
file.mkdir();
}
myDbEnv.close();
myDbEnv.setupNoTransact(file, false);
} else {//
try {
myDbEnv.setupAppend(file);
} catch (Exception e) {
LOG.error(e.getMessage());
file.delete();
file.mkdir();
myDbEnv.setupNoTransact(file, false);
}
}
myDbEnv.setCacheSize(1024);
} catch (DatabaseException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
try {
da = myDbEnv.getEntityStore();
infoMap = da.getPrimaryIndex(String.class, MetResourceBE.class);
infoMapByDigest = da.getSecondaryIndex(infoMap, String.class,
"digest");
} catch (DatabaseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public int error() throws IOException {
throw new IOException("bobo");
}
public int getMetResource(String uri, byte[] content) {
if(null==uri) return 0;
LOG.info("uri:" + uri);
try {
MetResourceBE metResource = infoMap.get(uri);
if (metResource != null) {
int status = metResource.getStatus();
String hash = "";
if (content == null) {
hash = MD5Hash.digest(uri).toString();
} else {
hash = MD5Hash.digest(content).toString();
}
int oldStatus = 0;
String oldHash = metResource.getDigest();
if (StringUtils.equalsIgnoreCase(oldHash, hash)) {
status ^= MetResourceBE.MODIFIED;// 去掉“修改过”标志位,未更改过
status |= MetResourceBE.UNMODIFIED;// 去掉“修改过”标志位,未更改过
} else {
status ^= MetResourceBE.UNMODIFIED;//未更改过
status |= MetResourceBE.MODIFIED;// 更改过
}
LOG.info("status:" + status);
return status;
}
} catch (DatabaseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return 0;
}
/**
*
* @param uri
* 地址
* @param content
* 内容
* @param status
* 当前状态(“经过但是不保存”还是“保存”)
* @return
* @throws DatabaseException
*/
public String putMetResource(String uri, byte[] content, int status,
MetResourceTag type) throws DatabaseException {
String hash = "";
//uri = uri.toLowerCase();
if (content == null) {
hash = MD5Hash.digest(uri).toString();
} else {
hash = MD5Hash.digest(content).toString();
}
MetResourceBE metResource = null;
//覆盖
if (type == MetResourceTag.COVER) {
metResource = infoMap.get(uri);
metResource = new MetResourceBE();
metResource.setUri(uri);
metResource.setDigest(hash);
metResource.setStatus(status);
infoMap.putNoReturn(metResource);
myDbEnv.sync();
return MsgConstant.SUCCESS;
}
int oldStatus = 0;
if (infoMap.contains(uri)) {
metResource = infoMap.get(uri);
oldStatus = metResource.getStatus();
String oldHash = metResource.getDigest();
if (StringUtils.equalsIgnoreCase(oldHash, hash)) {
oldStatus ^= MetResourceBE.MODIFIED;// 去掉“修改过”标志位,未更改过
oldStatus |= MetResourceBE.UNMODIFIED;// 去掉“修改过”标志位,未更改过
} else {
oldStatus ^= MetResourceBE.UNMODIFIED;// 去掉“未修改过”标志位,未更改过
oldStatus |= MetResourceBE.MODIFIED;// 更改过
}
oldStatus |= status;
metResource.setStatus(oldStatus);
} else {// 遇到过相同的页面
if (infoMapByDigest.contains(hash)) {
oldStatus = MetResourceBE.SAME_CONTENT;// 不同uri相同页面
} else {// 没有遇到过相同内容的页面
// 根据status来设置是met还是saved
oldStatus = status;
}
metResource = new MetResourceBE();
metResource.setUri(uri);
metResource.setDigest(hash);
metResource.setStatus(oldStatus);
}
if (null != metResource) {
infoMap.putNoReturn(metResource);
if(flushCnt++ % 5==0){
myDbEnv.sync();
}
}
return MsgConstant.SUCCESS;
}
public int getMetResource(String uri) {
// TODO Auto-generated method stub
return getMetResource(uri, null);
}
/**
* type: 覆盖还是融合
*/
public String putMetResource(String uri, String content, int status,
MetResourceTag type) throws DatabaseException {
try {
putMetResource(uri, content.getBytes("UTF-8"), status, type);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (DatabaseException e) {
e.printStackTrace();
}
if(flushCnt++ % 5==0){
myDbEnv.sync();
}
return MsgConstant.SUCCESS;
}
}
其中MetResourceBE的实现:
package com.rayeen.spider.vertical.data;
import java.io.Serializable;
import java.util.logging.Logger;
import com.sleepycat.persist.*;
import com.sleepycat.persist.model.*;
import com.sleepycat.persist.model.Entity;
import com.sleepycat.persist.model.PrimaryKey;
import com.sleepycat.persist.model.SecondaryKey;
import com.sleepycat.persist.model.Relationship;
@Entity
public class MetResourceBE implements Serializable{
@PrimaryKey(sequence="ID")
private String uri;
@SecondaryKey(relate=Relationship.MANY_TO_ONE)
private String digest;
private java.util.Date insertTime;
private int status;
final static public int MET=0x1;//url遇到过
final static public int SAVED=0x2;//url保存过
final static public int MODIFIED=0x4;//内容更新过
final static public int UNMET=0x8;//url未遇到过
final static public int UNSAVED=0x10;//url未保存过
final static public int UNMODIFIED=0x20;//内容未更新
final static public int BLANK=0x0;//未遇到过,未保存过,未更新过
final static public int FULL=MET|SAVED|MODIFIED|UNMET|UNSAVED|UNMODIFIED;// 遇到过, 保存过, 更新过
//
//final static public int MET_MODIFIED=0x5;//遇到url相同,内容不同的页面
// final static public int UNMET=0x0;//url遇到过,未更新过,未保存过
// final static public int UNSAVED_UNMODIFY=0x4;//遇到过,更新或未更新过,未保存过
// final static public int UNSAVED_MODIFY=0x6;//遇到过,更新或未更新过,未保存过
//final static public int UNSAVED=0x8;//url保存过
final static public int SAME_CONTENT=0x10;//遇到url不同,内容相同的页面
final static public int SAME_URL=0x20;//遇到url相同,内容不同的页面
// final static public int MODIFIED=0x40;//遇到url相同,内容不同的页面
// final static public int UNMODIFIED=0x80;//遇到url相同,内容不同的页面
public java.util.Date getInsertTime() {
return insertTime;
}
public void setInsertTime(java.util.Date insertTime) {
this.insertTime = insertTime;
}
public String getDigest() {
return digest;
}
public void setDigest(String digest) {
this.digest = digest;
}
public String getUri() {
return uri;
}
public void setUri(String uri) {
this.uri = uri;
}
public int getStatus() {
return status;
}
public void setStatus(int status) {
this.status = status;
}
}
判断是否爬过某个页面的代码片段:
// 在fetchedList非空的情况下才处理以下逻辑
if (null != fetchedList) {
int curStatus = fetchedList.getMetResource(realUrl, content
.getBytes("UTF-8"));
// 如果不应该处理这个页面,那么直接返回
if (ParseUtils.EntranceCantProcess(processStandard, curStatus)) {
log(MetResourceUtil.explainMetResourceReason(
url.getToUrl(), processStandard, curStatus),
LogType.ENTRANCE_CONDITIONAL);
return curStatus;
}
// 否则,记录这个页面的状态(met和unmet状态转换)
fetchedList.putMetResource(url.getToUrl(), content
.getBytes("UTF-8"), MetResourceBE.UNMET
| MetResourceBE.MET, MetResourceTag.MERGE);
}
保存数据之后,修改URL状态的代码片段:
public void save(String saveStat) throws SemanticException {
// curHierarchyResultMap中保存着到上级页面为止的入口处的信息
// 之前的若干步骤都是为了填充curHierarchyResultMap里的数据
// 这里的curHierarchyResultMap是上层的crawl函数设进参数的HierarchyResultMap
// 本层的所有save函数共用这个curHierarchyResultMap
// curUri会被enter之后的处理过程还原出来,强行设置为
VMUtils.save(curUri, curPage, curHierarchyResultMap, curCrsc, saveStat);
// 保存“已保存过标记”
if (null != fetchedList) {
try {
fetchedList.putMetResource(curUrl.getToUrl(), curContent,
MetResourceBE.SAVED | MetResourceBE.UNSAVED,
MetResourceTag.MERGE);
} catch (DatabaseException e) {
e.printStackTrace();
}
}
}
一些位操作的辅助函数:
static TObjectIntHashMap bitmap = new TObjectIntHashMap();
static {
bitmap.put("遇到过", MetResourceBE.MET);
bitmap.put("更新过", MetResourceBE.MODIFIED);
bitmap.put("保存过", MetResourceBE.SAVED);
bitmap.put("未遇到过", MetResourceBE.UNMET);
bitmap.put("未更新过", MetResourceBE.UNMODIFIED);
bitmap.put("未保存过", MetResourceBE.UNSAVED);
}
/**
* 处理前三位数据 111(未遇到过||更新过||未保存过)& 001(未保存过) 返回前3位数据(位置上的后三位,逻辑上的前3位)
*
* @param standard
* @return
* @throws SemanticException
*/
public static int parseProcessStardard(String standard)
throws SemanticException {
if (null == standard)
return -1;
int idx = standard.indexOf(ConfConstant.PROCESS_STANDARD);
int status = 0;
if (idx != -1) {
standard = standard.substring(idx
+ ConfConstant.PROCESS_STANDARD.length() + 1);
}
String[] stdsOR = Pattern.compile("||", Pattern.LITERAL).split(
standard, 0);
int or = MetResourceBE.BLANK;
for (String strOR : stdsOR) {
strOR = strOR.trim();
int and = MetResourceBE.BLANK;
String[] stdsAND = Pattern.compile("&&", Pattern.LITERAL).split(
strOR, 0);
for (String strAnd : stdsAND) {
strAnd = strAnd.trim();
if (!bitmap.containsKey(strAnd)) {
ParalleIRVirtualMachine.error(
"error enterance strandard grammer:"
+ strAnd.substring(1), ErrorType.GRAMMER);
}
and |= bitmap.get(strAnd);
}
or = or | and;
}
status = or;
return status;
}
static public boolean canProceess(int standard, int status) {
return ((standard | status) & MetResourceBE.FULL) > 0;
}
static public boolean PageCanProceess(String standardStr, int status)
throws SemanticException {
int standard = parseProcessStardard(standardStr);
return ((standard | status) & MetResourceBE.FULL) > 0;
}
// 如果:所有遇到过的uri都不进入(不探测是否更新),则在met的情况下,cantEnter返回true
static public boolean EntranceCantEnter(String standardStr, int status)
throws SemanticException {
int standard = parseProcessStardard(standardStr);
return EntranceCantEnter(standard, status);
}
static public boolean EntranceCantEnter(int standard, int status) {
if (standard == -1)
return false;
// url遇到过,未更新过,未保存过
if (standard == MetResourceBE.UNMET && (status & MetResourceBE.MET) > 0) {
return true;
}
// 未保存过+更新过+遇到过+<->当前状态:未保存过+未更新过+遇到过+
//
return false;
}
// 如果标准是:更新过,而status是未更新过
// 或者标准是:未保存过,而status是保存过,那么,本页不需要处理
// 如果标准是:更新过,未保存过,status是未更新过,未保存过,那么,没有不能完全符合,也不能处理
// 不考虑是否遇到过这个页面
// 只处理标准中提到的信息,没提到的无所谓
// 是否需要多加一倍的字段数? 由3位01变成6位01?
static public boolean EntranceCantProcess(int standard, int status) {
if (standard == -1)
return false;
// "未遇到过"也就是,status中的"未遇到过"位必须是1
if ((standard & MetResourceBE.UNMET) > 0
&& (status & MetResourceBE.UNMET) > 0) {
return true;
}
// 是否更新过
if (((standard & MetResourceBE.MODIFIED) ^ (status & MetResourceBE.MODIFIED)) != 0) {
return true;
}
// 如果标准是:更新过||未保存过||未遇到过 , 而status是未更新过&&未保存过&&遇到过,
// 则不处理这个页面
if (standard == (MetResourceBE.MODIFIED | MetResourceBE.SAVED | MetResourceBE.MET)
&& status == (MetResourceBE.MODIFIED | MetResourceBE.SAVED)) {
return true;
}
return false;
}
分享到:
相关推荐
《基于IRVM的锂电池荷电状态评估方法与仿真验证》 在电动汽车领域,锂电池的荷电状态(SOC)是至关重要的参数,它直接影响到电池的性能和寿命。由于SOC无法直接测量,需要依赖于电池电压、充放电电流和温度等物理量...
IRVM可能是这个网站提供的一个在线工具,用于查看、分析或执行编译器生成的IR代码。 标签 "1" 可能代表实验的级别或者序列,暗示这是一系列实验中的第三个,或者它可能指代实验的某种分类,但具体含义需要更多上...
sql server+java项目之科帮网计算机配件报价系统源代码
有java环境就可以运行起来 ,zip里包含源码+论文+PPT, 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上
zip里包含源码+论文+PPT,有java环境就可以运行起来 ,功能说明: 文档开篇阐述了随着计算机技术、通信技术和网络技术的快速发展,智慧社区门户网站的建设成为了可能,并被视为21世纪信息产业的主要发展方向之一 强调了网络信息管理技术、数字化处理技术和数字式信息资源建设在国际竞争中的重要性。 指出了智慧社区门户网站系统的编程语言为Java,数据库为MYSQL,并实现了新闻资讯、社区共享、在线影院等功能。 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。
内容概要:本文档详细介绍了LinkLab实验的五个阶段,涵盖了ELF文件的组成、符号表的理解、代码节与重定位位置的修改等内容。每个阶段都有具体的实验要求和步骤,帮助学生理解链接的基本概念和链接过程中涉及的各项技术细节。 适合人群:计算机科学专业的本科生,特别是正在修读《计算机系统基础》课程的学生。 使用场景及目标:① 通过实际操作加深对链接过程和ELF文件的理解;② 掌握使用readelf、objdump和hexedit等工具的技巧;③ 实现特定输出以验证实验结果。 阅读建议:实验过程中的每个阶段都有明确的目标和提示,学生应按照步骤逐步操作,并结合反汇编代码和二进制编辑工具进行实践。在完成每个阶段的实验后,应及时记录实验结果和遇到的问题,以便于总结和反思。
【资源说明】 基于关键词的历时百度搜索指数自动采集资料齐全+详细文档+高分项目+源码.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
第一次发文的小白,解释的不好,各位大佬勿怪哦
免费下载:Hilma af Klint a Biography (Julia Voss)_tFy2T.zip
屏幕截图 2024-12-21 172527
2024级涉外护理7班马天爱劳动实践总结1.docx
IndexOutOfBoundsException(解决方案)
有java环境就可以运行起来 ,zip里包含源码+论文+PPT, 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上
有java环境就可以运行起来 ,zip里包含源码+论文+PPT, 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上
zip里包含源码+论文+PPT,有java环境就可以运行起来 ,功能说明: 文档开篇阐述了随着计算机技术、通信技术和网络技术的快速发展,智慧社区门户网站的建设成为了可能,并被视为21世纪信息产业的主要发展方向之一 强调了网络信息管理技术、数字化处理技术和数字式信息资源建设在国际竞争中的重要性。 指出了智慧社区门户网站系统的编程语言为Java,数据库为MYSQL,并实现了新闻资讯、社区共享、在线影院等功能。 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。
DevExpressVCLProductDemos-24.2.3.exe
欢迎下载
有java环境就可以运行起来 ,zip里包含源码+论文+PPT, 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上
资源描述: 机型代码:haotian 1-----工程固件可以用于修改参数 开启diag端口。可以用于修复tee损坏以及修复底层分区。 2-----此固件是完整官方。不是第三方打包。请知悉 3-----此固件可以解锁bl后fast模式刷写。也可以底层深刷。也可以编程器写入 4-----请会用此固件 了解工程固件常识以及会用的朋友下载。 5-----个别高版本深刷需要授权才可以刷入。需要自己会刷写。 6------资源有可复制性。下载后不支持退。请考虑清楚在下载哦 工程资源常识可以参考博文:https://blog.csdn.net/u011283906/article/details/141815378 了解基本
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于计算机科学与技术等相关专业,更为适合;