`

爬虫基础类

阅读更多
自己封装的爬虫基础类。


public interface TaskBaseInfo {
	
	/**
	 * 返回任务的名称.
	 * <br/>
	 * 一般用作日志输出
	 * @return
	 */
	String taskName();

	/**
	 * 返回任务的唯一code
	 * @return 在整个爬虫项目中不重复的Code值
	 */
	String taskCode();
}



import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.concurrent.CompletableFuture;
import java.util.concurrent.ExecutionException;

import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import redis.clients.jedis.JedisCluster;

public interface TaskStringCache {

	Logger logger = LoggerFactory.getLogger(TaskStringCache.class);
	
	String BASE_FILE_PATH = "/mfs/ShareFile/static/cms/crawler/cache/";
	
	JedisCluster obtainJedisCluster();
	
	String getCacheStr(String taskCode, String cacheKey);

	void setCacheStr(String taskCode, String cacheKey, int cacheSeconds, String cacheStr);
	
	
	
	default String obtainTargetFilePath(String taskCode, String cacheKey) {
		
		return BASE_FILE_PATH + taskCode + File.pathSeparator + cacheKey + ".properties";
	}
	
	/**
	 * 设置缓存的默认方法
	 * @param taskName 任务中文名,日志使用
	 * @param taskCode 任务code需保持唯一性
	 * @param cacheKey 缓存的key
	 * @param cacheStr 缓存的值
	 */
    default void defaultSetCacheStr(String taskName, String taskCode, String cacheKey, int cacheSeconds, String cacheStr) {

        JedisCluster jedisCluster = obtainJedisCluster();
        jedisCluster.setex(cacheKey, cacheSeconds, cacheStr);
        String targetFilePath = obtainTargetFilePath(taskCode, cacheKey);
        save2FileAtomic(taskName, targetFilePath, cacheStr);
    }

    /**
     * 获取通过【设置缓存的默认方法】{@link #defaultSetCacheStr(String, String, String, String)}设置的缓存
     * @param taskName 任务中文名,日志使用
     * @param taskCode 任务code需保持唯一性
     * @param cacheKey 缓存的key
     * @return
     */
    default String defaultGetCacheStr(String taskName, String taskCode, String cacheKey) {

        JedisCluster jedisCluster = obtainJedisCluster();
        String cacheStr = jedisCluster.get(cacheKey);
        if (StringUtils.isNotBlank(cacheStr)) {

            return cacheStr;
        }

        String targetFilePath = obtainTargetFilePath(taskCode, cacheKey);
        try {
        	// 没利用到多少异步的优势,执行异步操作后马上获取结果还是会阻塞
            cacheStr = readFile(targetFilePath).get();
        } catch (InterruptedException | ExecutionException e) {
			
        	logger.error("【" + taskName + "】 执行异步获取文件缓存内容时失败. taskCode=>" + "【" + taskCode + "】" + " cacheKey=>" + "【" + cacheKey + "】");
        	logger.error(e.getMessage());
		}

        return cacheStr;
    }

    /**
     * 通过文件持久化爬取的游标Id,避免在数据增加字段
     * 文件写入操作较慢,异步执行
     * 原子操作,避免写入和读取的并发问题
     *
     * @param filePath
     * @return
     */
    default void save2FileAtomic(String taskName, String filePath, String content) {

        CompletableFuture.runAsync(() -> {

			File tmpFile = new File(filePath + ".tmp");
			try {

				if (tmpFile.exists() == false) {

					tmpFile.getParentFile().mkdirs();
					tmpFile.createNewFile();
				}
				try (FileWriter fw = new FileWriter(tmpFile)) {

					fw.write(content);
					fw.flush();
				}

			} catch (IOException e) {

				logger.error("【" + taskName + "】 => 写入缓存字符串到文件 => 【" + tmpFile + "】 时异常	\n" + e.getMessage());
				logger.error("【" + taskName + "】 文件写入操作退出");
				if (tmpFile.exists()) {
					tmpFile.delete();
				}
				return;
			}

			if (tmpFile.exists() == false) {

				return;
			}
            
            // 此段注释针对windows系统在同一个文件系统内且是同一个盘符下已经有一个目标文件;
            // 下面的renameTo操作会失败,造成无限递归调用进而 【栈溢出】 异常
            // 在Linux运行的情况下,可暂时先注释掉,测试没问题后上线
            // 注释开始段
//			File destFile = new File(filePath);
//			if (destFile.exists()) {
//				destFile.delete();
//			}
            // 注释结束段

            if (tmpFile.renameTo(new File(filePath))) {

                tmpFile.delete();
            } else {

            	logger.error("move fails filePath:" + filePath);
                tmpFile.delete();
                this.save2FileAtomic(taskName, filePath, content);
                // 当在Linux某个发行版下测试时,renameTo操作出错的话,可不硬性要求原子操作,
                // 可将上面的原子操作注释掉,改为下面的操作
//				save2File(filePath, content);
            }
        });
    }

//	default void save2File(String filePath, String content) throws IOException {
//		
//		try (FileWriter fw = new FileWriter(new File(filePath))) {
//
//			fw.write(content);
//			fw.flush();
//		}
//	}

    /**
     * 异步读取文件内容
     *
     * @param filePath
     * @return
     * @throws IOException
     * @throws FileNotFoundException
     */
	default CompletableFuture<String> readFile(String filePath) {

		return CompletableFuture.supplyAsync(() -> {

			StringBuilder strb = new StringBuilder();
			try (FileInputStream fis = new FileInputStream(filePath); 
					BufferedReader inReader = new BufferedReader(new InputStreamReader(fis));) {

				String line = StringUtils.EMPTY;
				while ((line = inReader.readLine()) != null) {
					strb.append(line);
				}
			} catch (IOException e) {

				logger.error(e.getMessage());
				return StringUtils.EMPTY;
			}

			return strb.toString();
		});
	}
}



public interface BasicTask {

	void run();
}



import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.BeansException;
import org.springframework.context.ApplicationContext;
import org.springframework.context.ApplicationContextAware;

import com.xxx.zx.crawler.basic.BasicTask;

public abstract class BaseCrawlerTask implements TaskBaseInfo, TaskStringCache, BasicTask, ApplicationContextAware {

	protected final Logger logger = LoggerFactory.getLogger(getClass());
	
	protected static ApplicationContext ac;
	
	@Override
	public void setApplicationContext(ApplicationContext applicationContext) throws BeansException {
		
		ac = applicationContext;
	}
	
	public synchronized static <T> T getBean(Class<T> beanClass) {
		
		return ac.getBean(beanClass);
	}
	
	public synchronized static Object getBean(String beanName) {
		
        return ac.getBean(beanName);
    }  
	
	@Override
	public String getCacheStr(String taskCode, String cacheKey) {
		
		return defaultGetCacheStr(taskName(), taskCode, cacheKey);
	}

	@Override
	public void setCacheStr(String taskCode, String cacheKey, int cacheSeconds, String cacheStr) {
		
		defaultSetCacheStr(taskName(), taskCode, cacheKey, cacheSeconds, cacheStr);
	}
}
1
0
分享到:
评论

相关推荐

    Python爬虫基础类库源码示例.zip

    本资源"Python爬虫基础类库源码示例.zip"包含了一系列的Python爬虫基础类库的源码实例,旨在帮助初学者更好地理解和运用这些库。以下是关于Python爬虫常用库的详细介绍以及实战应用。 1. **BeautifulSoup** ...

    python爬虫基础课件.pdf

    根据提供的文件信息,这份python爬虫基础课件主要涵盖了网络爬虫的概念、原理、基本流程以及实现数据抓取和处理的关键技术点。 首先,网络爬虫是自动获取网页内容的程序,常用于搜索引擎、数据采集等场景。网络爬虫...

    爬虫基础知识和软件准备(视频)

    这个“爬虫基础知识和软件准备”视频教程将引导你进入爬虫的世界,帮助你理解爬虫的概念,以及在开发爬虫前如何正确配置和搭建工作环境。 首先,我们需要理解爬虫的基本概念。爬虫,又称为网络蜘蛛或网页抓取工具,...

    爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.zip

    案例分析:在提供的压缩包"11-爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例"中,可能包含实际的Scrapy项目代码和MongoDB使用示例。这些案例可以帮助你更深入地理解如何将Scrapy与MongoDB集成,包括...

    网络爬虫基础 个人学习笔记

    **网络爬虫基础** 网络爬虫,又称为网页蜘蛛或数据抓取程序,是一种自动浏览互联网并抓取信息的程序。在Python编程语言中,学习网络爬虫可以帮助我们有效地从网上获取大量数据,进行数据分析或者建立自己的信息库。...

    机票爬虫工具类

    总的来说,这个"机票爬虫工具类"项目涉及到网络爬虫的基础知识和实践技巧,通过合理的设计和实现,我们可以高效地获取到埃塞俄比亚和卡塔尔的机票信息,为数据分析、市场研究等工作提供数据支持。

    苏飞爬虫HttpHelper类

    在实际使用HttpHelper类时,开发者需要结合C#的基础知识,如字符串处理、正则表达式、XML或JSON解析等,来处理获取的响应数据,并根据需要解析出目标信息。同时,理解HTTP协议的基本原理,如请求头、状态码、编码...

    HttpHelper爬虫类使用实例

    它通常会封装HttpClient或WebClient等.NET Framework提供的基础网络通信类,以提供更简洁的API,方便开发者快速构建爬虫项目。 1. **HTTP请求基础**:在爬虫开发中,我们首先需要理解HTTP协议的基本概念,如GET和...

    基础版爬虫源码

    【基础版爬虫源码】是一个适合初学者的爬虫程序示例,它提供了一个简单的起点,让学习者能够理解并实践网页数据抓取的基本原理和步骤。爬虫是计算机科学领域的一种技术,用于自动地从互联网上搜集信息,它是大数据...

    一些爬虫基础和python基础随手记练习.rar

    在本压缩包“一些爬虫基础和python基础随手记练习.rar”中,包含的是关于Python编程语言的基础知识以及网络爬虫技术的学习资料。Python是一种高级、通用的编程语言,因其简洁明了的语法而受到广大程序员的喜爱,尤其...

    python爬虫基础知识&源码.zippython爬虫基础知识&源码.zippython爬虫基础知识&源码.zip

    Python爬虫基础知识与源码分析 在信息技术领域,Python爬虫是数据挖掘和网络信息获取的重要工具。Python语言因其简洁明了的语法和丰富的库支持,成为开发爬虫的首选语言。本篇将深入探讨Python爬虫的基础知识,并...

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdf

    Python网络爬虫技术是数据获取和分析的重要工具,尤其在大数据技术类专业中,它扮演着不可或缺的角色。本章主要介绍Python爬虫环境的搭建和爬虫的基本概念,旨在帮助学生理解爬虫的运作原理,并能够应对常见的反爬虫...

    爬虫基础教程,简单易学

    总结来说,本"爬虫基础教程"将带你走进Python爬虫的世界,通过学习和实践,你可以掌握网页抓取、数据解析、反爬策略、数据存储等核心技能,为后续的数据分析和挖掘打下坚实基础。不论你是对数据充满热情的学生,还是...

    网络爬虫类

    通过学习和理解这个项目,初学者可以了解到网络爬虫的基本构建块,并为进一步的爬虫开发打下基础。同时,对于有经验的开发者,这样的项目可以作为进一步优化和扩展的起点,例如实现分布式爬虫以提高抓取效率,或者...

    ## 爬虫基础知识、爬虫实例与反爬机制详解

    ### 爬虫基础知识、爬虫实例与反爬机制详解 在网络世界中,爬虫作为一项重要的技术手段,既是强大的信息搜集工具,也是对网站运营者的挑战。爬虫技术可以帮助我们从海量的互联网数据中提取有价值的信息,但也可能...

    python爬虫基础知识.zip

    Python爬虫基础知识是入门网络数据抓取的重要领域,它涵盖了Python编程语言的基础、网络请求、HTML解析、数据存储等多个方面。下面将详细讲解这些关键知识点。 首先,Python是一种广泛使用的高级编程语言,因其简洁...

    Python网络爬虫基础教学大纲.docx

    **一、网络爬虫基础** 1. **网络爬虫概念**:网络爬虫(Web Crawler)是按照预定规则自动抓取互联网信息的程序或脚本。它能遍历网页,抓取其中的数据,形成结构化的数据集合。 2. **分类**:通用网络爬虫(全网爬虫...

    C#网络爬虫技术类文档

    ### C#网络爬虫技术详解 ...无论是初学者还是有一定基础的学习者,都应该注重理论与实践相结合,在实践中不断优化自己的爬虫系统。同时,需要注意遵守法律法规及网站政策,尊重数据所有权,合理合法地进行数据抓取。

    《零基础:21天搞定Python分布爬虫》课件

    1. **Python编程基础**:学习Python的基本语法、变量类型、控制流、函数和类等,这是编写爬虫程序的基础。 2. **网络请求与HTTP协议**:了解HTTP请求方法(GET、POST等)和响应状态码,以及如何使用Python的...

Global site tag (gtag.js) - Google Analytics