`
roki
  • 浏览: 62699 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

《搜索引擎零距离》IRVM 已爬地址处理

阅读更多
    使用BDB来存储已爬地址,用int status的各个不同的位,来表示不同的访问状态:
访问过;保存过;修改过 等等

package com.rayeen.spider.vertical.data;

import java.io.File;
import java.io.IOException;
import java.io.UnsupportedEncodingException;

import org.apache.hadoop.io.MD5Hash;
import org.apache.log4j.Logger;
import com.sleepycat.je.DatabaseException;
import com.sleepycat.je.Environment;
import com.sleepycat.persist.EntityStore;
import com.sleepycat.persist.PrimaryIndex;
import com.sleepycat.persist.SecondaryIndex;
import com.rayeen.spider.vertical.constant.MetResourceTag;
import com.rayeen.spider.vertical.constant.MsgConstant;
import com.rayeen.spider.vertical.util.ResutTree;
import org.apache.commons.lang.*;

public class MetResourceProtocolImpl implements MetResourceProtocol {
	
	
	public MetResourceProtocolImpl(String name){
		this.name=name;
	}
	String name;

	static final Logger LOG = Logger.getLogger(ResutTree.class);

	public static String openMode = "append";

	public static int hitCnt = 0;

	private static MyDbEnv myDbEnv = new MyDbEnv();

	static EntityStore da;

	static PrimaryIndex<String, MetResourceBE> infoMap = null;

	static SecondaryIndex<String, String, MetResourceBE> infoMapByDigest = null;

	static int flushCnt = 0;
 
       //初始化BDB数据库环境
	public synchronized void initilize() throws DatabaseException {

		Environment myDbEnvironment = null;
		
		
		File met = new File("./metResource");
		if(!met.exists()){
			met.mkdir();
		}
		
		
		File file = new File("./metResource/"+name);

		try {
			if (!file.exists()) {

				if (!file.exists()) {
					file.mkdir();
				}

				myDbEnv.close();
				myDbEnv.setupNoTransact(file, false);

			} else {// 
				try {
					myDbEnv.setupAppend(file);
				} catch (Exception e) {
					LOG.error(e.getMessage());
					file.delete();

					file.mkdir();
					myDbEnv.setupNoTransact(file, false);
				}
			}

			myDbEnv.setCacheSize(1024);
		} catch (DatabaseException e1) {
			// TODO Auto-generated catch block
			e1.printStackTrace();
		}

		try {
			da = myDbEnv.getEntityStore();
			infoMap = da.getPrimaryIndex(String.class, MetResourceBE.class);
			infoMapByDigest = da.getSecondaryIndex(infoMap, String.class,
					"digest");

		} catch (DatabaseException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}

	public int error() throws IOException {
		throw new IOException("bobo");
	}

	public int getMetResource(String uri, byte[] content) {
		
		if(null==uri) return 0;
		
		LOG.info("uri:" + uri);
		try {
			MetResourceBE metResource = infoMap.get(uri);

			if (metResource != null) {
				int status = metResource.getStatus();
				String hash = "";
				if (content == null) {
					hash = MD5Hash.digest(uri).toString();
				} else {
					hash = MD5Hash.digest(content).toString();
				}
				int oldStatus = 0;
				String oldHash = metResource.getDigest();
				if (StringUtils.equalsIgnoreCase(oldHash, hash)) {
					status ^= MetResourceBE.MODIFIED;// 去掉“修改过”标志位,未更改过
					status |= MetResourceBE.UNMODIFIED;// 去掉“修改过”标志位,未更改过
				} else {
					status ^= MetResourceBE.UNMODIFIED;//未更改过
					status |= MetResourceBE.MODIFIED;// 更改过
				}
				
				LOG.info("status:" + status);
				
				return status;
			}
		} catch (DatabaseException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return 0;
	}

	/**
	 * 
	 * @param uri
	 *            地址
	 * @param content
	 *            内容
	 * @param status
	 *            当前状态(“经过但是不保存”还是“保存”)
	 * @return
	 * @throws DatabaseException
	 */
	public String putMetResource(String uri, byte[] content, int status,
			MetResourceTag type) throws DatabaseException {

		String hash = "";
		//uri = uri.toLowerCase();
		if (content == null) {
			hash = MD5Hash.digest(uri).toString();
		} else {
			hash = MD5Hash.digest(content).toString();
		}

		MetResourceBE metResource = null;
		
		//覆盖
		if (type == MetResourceTag.COVER) {
			
			metResource = infoMap.get(uri);
			metResource = new MetResourceBE();
			metResource.setUri(uri);
			metResource.setDigest(hash);
			metResource.setStatus(status);
			infoMap.putNoReturn(metResource);
			myDbEnv.sync();
			return MsgConstant.SUCCESS;
		}

		int oldStatus = 0;
		if (infoMap.contains(uri)) {
			metResource = infoMap.get(uri);

			oldStatus = metResource.getStatus();
			String oldHash = metResource.getDigest();
			if (StringUtils.equalsIgnoreCase(oldHash, hash)) {
				oldStatus ^= MetResourceBE.MODIFIED;// 去掉“修改过”标志位,未更改过
				oldStatus |= MetResourceBE.UNMODIFIED;// 去掉“修改过”标志位,未更改过
			} else {
				oldStatus ^= MetResourceBE.UNMODIFIED;// 去掉“未修改过”标志位,未更改过
				oldStatus |= MetResourceBE.MODIFIED;// 更改过
			}
			oldStatus |= status;
			metResource.setStatus(oldStatus);

		} else {// 遇到过相同的页面

			if (infoMapByDigest.contains(hash)) {
				oldStatus = MetResourceBE.SAME_CONTENT;// 不同uri相同页面
			} else {// 没有遇到过相同内容的页面
				// 根据status来设置是met还是saved
				oldStatus = status;
			}

			metResource = new MetResourceBE();

			metResource.setUri(uri);
			metResource.setDigest(hash);
			metResource.setStatus(oldStatus);

		}

		if (null != metResource) {
			infoMap.putNoReturn(metResource);
			
			if(flushCnt++ % 5==0){
			    myDbEnv.sync();
			}
		}

		return MsgConstant.SUCCESS;
	}

	public int getMetResource(String uri) {
		// TODO Auto-generated method stub
		return getMetResource(uri, null);
	}

	/**
	 * type: 覆盖还是融合
	 */
	public String putMetResource(String uri, String content, int status,
			MetResourceTag type) throws DatabaseException {
		try {
			putMetResource(uri, content.getBytes("UTF-8"), status, type);
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		} catch (DatabaseException e) {
			e.printStackTrace();
		}
		
		if(flushCnt++ % 5==0){
		    myDbEnv.sync();
		}
		
		return MsgConstant.SUCCESS;
	}

}



其中MetResourceBE的实现:
package com.rayeen.spider.vertical.data;


import java.io.Serializable;
import java.util.logging.Logger;


import com.sleepycat.persist.*;

import com.sleepycat.persist.model.*;

import com.sleepycat.persist.model.Entity;
import com.sleepycat.persist.model.PrimaryKey;
import com.sleepycat.persist.model.SecondaryKey;
import  com.sleepycat.persist.model.Relationship;


@Entity
public class MetResourceBE implements Serializable{

	
	@PrimaryKey(sequence="ID")
	private String  uri;
	 
	@SecondaryKey(relate=Relationship.MANY_TO_ONE)
	private String digest;
	
	
	
	private java.util.Date insertTime;
	private int status;
	
	final static public int MET=0x1;//url遇到过
	final static public int SAVED=0x2;//url保存过
	final static public int MODIFIED=0x4;//内容更新过
	
	final static public int UNMET=0x8;//url未遇到过
	final static public int UNSAVED=0x10;//url未保存过
	final static public int UNMODIFIED=0x20;//内容未更新
	
	final static public int BLANK=0x0;//未遇到过,未保存过,未更新过
	final static public int FULL=MET|SAVED|MODIFIED|UNMET|UNSAVED|UNMODIFIED;// 遇到过, 保存过, 更新过
//	
	

	

	//final static public int MET_MODIFIED=0x5;//遇到url相同,内容不同的页面
	
	
//	final static public int UNMET=0x0;//url遇到过,未更新过,未保存过
//	final static public int UNSAVED_UNMODIFY=0x4;//遇到过,更新或未更新过,未保存过
//	final static public int UNSAVED_MODIFY=0x6;//遇到过,更新或未更新过,未保存过
	
	
	//final static public int UNSAVED=0x8;//url保存过

	
	
	final static public int SAME_CONTENT=0x10;//遇到url不同,内容相同的页面
	final static public int SAME_URL=0x20;//遇到url相同,内容不同的页面
//	final static public int MODIFIED=0x40;//遇到url相同,内容不同的页面
//	final static public int UNMODIFIED=0x80;//遇到url相同,内容不同的页面

	



	
	public java.util.Date getInsertTime() {
		return insertTime;
	}

	public void setInsertTime(java.util.Date insertTime) {
		this.insertTime = insertTime;
	}

	public String getDigest() {
		return digest;
	}

	public void setDigest(String digest) {
		this.digest = digest;
	}

	public String getUri() {
		return uri;
	}

	public void setUri(String uri) {
		this.uri = uri;
	}

	public int getStatus() {
		return status;
	}

	public void setStatus(int status) {
		this.status = status;
	}

}



判断是否爬过某个页面的代码片段:


	// 在fetchedList非空的情况下才处理以下逻辑
			if (null != fetchedList) {
				int curStatus = fetchedList.getMetResource(realUrl, content
						.getBytes("UTF-8"));

				// 如果不应该处理这个页面,那么直接返回
				if (ParseUtils.EntranceCantProcess(processStandard, curStatus)) {
					log(MetResourceUtil.explainMetResourceReason(
							url.getToUrl(), processStandard, curStatus),
							LogType.ENTRANCE_CONDITIONAL);
					return curStatus;
				}
				// 否则,记录这个页面的状态(met和unmet状态转换)
				fetchedList.putMetResource(url.getToUrl(), content
						.getBytes("UTF-8"), MetResourceBE.UNMET
						| MetResourceBE.MET, MetResourceTag.MERGE);

			}


保存数据之后,修改URL状态的代码片段:

public void save(String saveStat) throws SemanticException {

		// curHierarchyResultMap中保存着到上级页面为止的入口处的信息
		// 之前的若干步骤都是为了填充curHierarchyResultMap里的数据
		// 这里的curHierarchyResultMap是上层的crawl函数设进参数的HierarchyResultMap
		// 本层的所有save函数共用这个curHierarchyResultMap

		// curUri会被enter之后的处理过程还原出来,强行设置为
		VMUtils.save(curUri, curPage, curHierarchyResultMap, curCrsc, saveStat);

		// 保存“已保存过标记”
		if (null != fetchedList) {
			try {
				fetchedList.putMetResource(curUrl.getToUrl(), curContent,
						MetResourceBE.SAVED | MetResourceBE.UNSAVED,
						MetResourceTag.MERGE);
			} catch (DatabaseException e) {
				e.printStackTrace();
			}
		}

	}


一些位操作的辅助函数:




	static TObjectIntHashMap bitmap = new TObjectIntHashMap();

	static {
		bitmap.put("遇到过", MetResourceBE.MET);
		bitmap.put("更新过", MetResourceBE.MODIFIED);
		bitmap.put("保存过", MetResourceBE.SAVED);

		bitmap.put("未遇到过", MetResourceBE.UNMET);
		bitmap.put("未更新过", MetResourceBE.UNMODIFIED);
		bitmap.put("未保存过", MetResourceBE.UNSAVED);
	}
	/**
	 * 处理前三位数据 111(未遇到过||更新过||未保存过)& 001(未保存过) 返回前3位数据(位置上的后三位,逻辑上的前3位)
	 * 
	 * @param standard
	 * @return
	 * @throws SemanticException
	 */
	public static int parseProcessStardard(String standard)
			throws SemanticException {
		if (null == standard)
			return -1;

		int idx = standard.indexOf(ConfConstant.PROCESS_STANDARD);
		int status = 0;

		if (idx != -1) {
			standard = standard.substring(idx
					+ ConfConstant.PROCESS_STANDARD.length() + 1);
		}

		String[] stdsOR = Pattern.compile("||", Pattern.LITERAL).split(
				standard, 0);
		int or = MetResourceBE.BLANK;
		for (String strOR : stdsOR) {
			strOR = strOR.trim();
			int and = MetResourceBE.BLANK;
			String[] stdsAND = Pattern.compile("&&", Pattern.LITERAL).split(
					strOR, 0);
			for (String strAnd : stdsAND) {
				strAnd = strAnd.trim();
				if (!bitmap.containsKey(strAnd)) {
					ParalleIRVirtualMachine.error(
							"error enterance strandard grammer:"
									+ strAnd.substring(1), ErrorType.GRAMMER);
				}
				and |= bitmap.get(strAnd);
			}

			or = or | and;
		}
		status = or;

		return status;
	}

	static public boolean canProceess(int standard, int status) {

		return ((standard | status) & MetResourceBE.FULL) > 0;
	}

	static public boolean PageCanProceess(String standardStr, int status)
			throws SemanticException {

		int standard = parseProcessStardard(standardStr);
		return ((standard | status) & MetResourceBE.FULL) > 0;
	}

	// 如果:所有遇到过的uri都不进入(不探测是否更新),则在met的情况下,cantEnter返回true
	static public boolean EntranceCantEnter(String standardStr, int status)
			throws SemanticException {
		int standard = parseProcessStardard(standardStr);
		return EntranceCantEnter(standard, status);
	}

	static public boolean EntranceCantEnter(int standard, int status) {

		if (standard == -1)
			return false;

		// url遇到过,未更新过,未保存过
		if (standard == MetResourceBE.UNMET && (status & MetResourceBE.MET) > 0) {
			return true;
		}
		// 未保存过+更新过+遇到过+<->当前状态:未保存过+未更新过+遇到过+
		//
		return false;
	}

	// 如果标准是:更新过,而status是未更新过
	// 或者标准是:未保存过,而status是保存过,那么,本页不需要处理

	// 如果标准是:更新过,未保存过,status是未更新过,未保存过,那么,没有不能完全符合,也不能处理
	// 不考虑是否遇到过这个页面

	// 只处理标准中提到的信息,没提到的无所谓
	// 是否需要多加一倍的字段数? 由3位01变成6位01?
	static public boolean EntranceCantProcess(int standard, int status) {

		if (standard == -1)
			return false;

		// "未遇到过"也就是,status中的"未遇到过"位必须是1
		if ((standard & MetResourceBE.UNMET) > 0
				&& (status & MetResourceBE.UNMET) > 0) {
			return true;
		}

		// 是否更新过
		if (((standard & MetResourceBE.MODIFIED) ^ (status & MetResourceBE.MODIFIED)) != 0) {
			return true;
		}

		// 如果标准是:更新过||未保存过||未遇到过 , 而status是未更新过&&未保存过&&遇到过,
		// 则不处理这个页面
		if (standard == (MetResourceBE.MODIFIED | MetResourceBE.SAVED | MetResourceBE.MET)
				&& status == (MetResourceBE.MODIFIED | MetResourceBE.SAVED)) {
			return true;
		}
		return false;
	}

分享到:
评论

相关推荐

    基于IRVM的锂电池荷电状态评估方法与仿真验证

    《基于IRVM的锂电池荷电状态评估方法与仿真验证》 在电动汽车领域,锂电池的荷电状态(SOC)是至关重要的参数,它直接影响到电池的性能和寿命。由于SOC无法直接测量,需要依赖于电池电压、充放电电流和温度等物理量...

    CSL1.0.rar_CSL1.0_CSL1.0.rar_RVM-DOA_l0-norm_sparse classifier

    RVM-DOA结合了两种方法的优点,能够在处理高维数据时有效地定位信号源,尤其适用于噪声环境下的声源定位。 三、l0-norm稀疏分类器 l0范数是衡量向量中非零元素个数的指标,它在稀疏表示中起着至关重要的作用。相比...

    HIT编译原理实验3 环境是wsl

    IRVM可能是这个网站提供的一个在线工具,用于查看、分析或执行编译器生成的IR代码。 标签 "1" 可能代表实验的级别或者序列,暗示这是一系列实验中的第三个,或者它可能指代实验的某种分类,但具体含义需要更多上...

    kernel-devel-4.18.0-553.45.1.el8-10.x86-64.rpm

    Rocky Linux 8.10内核包

    Simulink中三阶单环多位量化Σ-Δ调制器的设计与实现-音频带ADC的应用(复现论文或解答问题,含详细可运行代码及解释)

    内容概要:本文档详细介绍了如何在Simulink中设计一个满足特定规格的音频带ADC(模数转换器)。首先选择了三阶单环多位量化Σ-Δ调制器作为设计方案,因为这种结构能在音频带宽内提供高噪声整形效果,并且多位量化可以降低量化噪声。接着,文档展示了具体的Simulink建模步骤,包括创建模型、添加各个组件如积分器、量化器、DAC反馈以及连接它们。此外,还进行了参数设计与计算,特别是过采样率和信噪比的估算,并引入了动态元件匹配技术来减少DAC的非线性误差。性能验证部分则通过理想和非理想的仿真实验评估了系统的稳定性和各项指标,最终证明所设计的ADC能够达到预期的技术标准。 适用人群:电子工程专业学生、从事数据转换器研究或开发的技术人员。 使用场景及目标:适用于希望深入了解Σ-Δ调制器的工作原理及其在音频带ADC应用中的具体实现方法的人群。目标是掌握如何利用MATLAB/Simulink工具进行复杂电路的设计与仿真。 其他说明:文中提供了详细的Matlab代码片段用于指导读者完成整个设计流程,同时附带了一些辅助函数帮助分析仿真结果。

    计算机课后习题.docx### 【计算机科学】研究生入学考试计算机组成原理专项题库设计:考研复习资源集成与优化

    内容概要:该题库专为研究生入学考试计算机组成原理科目设计,涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题,并提供详尽解析,帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》(第5版)和唐朔飞《计算机组成原理》(第2版)的全部课后习题解答,这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题,注重基础知识与重难点内容,帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点,精心编制两套全真模拟试题,并附标准答案,帮助考生检验学习成果,评估应试能力。 适用人群:计划参加研究生入学考试并报考计算机组成原理科目的考生,尤其是需要系统复习和强化训练的学生。 使用场景及目标:①通过研读名校考研真题,考生可以准确把握考研命题趋势与难度,有效评估复习成效;②通过经典教材课后习题的练习,考生可以巩固基础知识,掌握解题技巧;③通过章节题库的系统练习,考生可以全面掌握考试大纲要求的各个知识点,为备考打下坚实基础;④通过模拟试题的测试,考生可以检验学习成果,评估应试能力,为正式考试做好充分准备。 其他说明:该题库不仅提供详细的题目解析,还涵盖了计算机组成原理的各个方面,包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作,注重理解与应用,以提高应试能力和专业知识水平。

    __UNI__DB9970A__20250328141034.apk.1

    __UNI__DB9970A__20250328141034.apk.1

    minio-rsc-Rust资源

    rust for minio

    4-4-台区智能融合终端功能模块型式规范(试行).pdf

    国网台区终端最新规范

    《基于YOLOv8的化工管道焊缝缺陷检测系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

    python源码-1个机器学习相关资源

    一个简单的机器学习代码示例,使用的是经典的鸢尾花(Iris)数据集,通过 Scikit-learn 库实现了一个简单的分类模型。这个代码可以帮助你入门机器学习中的分类任务。

    pyqt离线包,pyqt-tools离线包

    pyqt离线包,pyqt-tools离线包

    《基于YOLOv8的船舶机舱灭火系统状态监测系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

    SQL常用日期和时间函数整理及使用示例

    SQL常用日期和时间函数整理及在sqlserver测试示例 主要包括 1.查询当前日期GETDATE 2.日期时间加减函数DATEADD 3 返回两个日期中指定的日期部分之间的差值DATEDIFF 4.日期格式转换CONVERT(VARCHAR(10),GETDATE(),120) 5.返回指定日期的年份数值 6.返回指定日期的月份数值 7.返回指定日期的天数数值

    GSDML-V2.3-Turck-BL20-E-GW-EN-20160524-010300.xml

    GSDML-V2.3-Turck-BL20_E_GW_EN-20160524-010300.xml

    T_CPCIF 0225-2022 多聚甲醛.docx

    T_CPCIF 0225-2022 多聚甲醛.docx

    《基于YOLOv8的智能仓储货物堆码倾斜预警系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    《基于YOLOv8的智能仓储货物堆码倾斜预警系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计

    蚕豆脱壳机设计.zip

    蚕豆脱壳机设计.zip

    附件2-2:台区智能融合终端入网专业检测单位授权委托书.docx

    台区终端电科院送检文档

    Y6一39一No23.6D离心通风机 CAD().zip

    Y6一39一No23.6D离心通风机 CAD().zip

Global site tag (gtag.js) - Google Analytics