`
fhqibjg
  • 浏览: 54957 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

java web页面数据抓取

    博客分类:
  • java
阅读更多

java抓取数据后,写入本地文件

	public static void main(String[] args){
		 URL url = null;
		 String path = null;
		 String filePath = null;
		try {
			 url =  new URL("http://publish.it168.com/2005/0915/20050915022401.shtml");
			 URLConnection urlCon = url.openConnection();
			 BufferedReader bufReader = new BufferedReader(new InputStreamReader(urlCon.getInputStream(),"gbk"));
			 
			 SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMdd");
			 String dateString = formatter.format(new Date());
			 
			 SimpleDateFormat formatter1 = new SimpleDateFormat("HHmmss");
			 String dateString1 = formatter1.format(new Date());
			 
			 path = "e:/webDataGather/"+dateString;
			 File dirFile =new File(path);
			 if(!(dirFile.exists()))
				 dirFile.mkdirs();
		     
			 filePath = path+"/"+dateString1+".html";
			 BufferedWriter bufWriter = new BufferedWriter(new  FileWriter(filePath));
			 
			 copy(bufReader, bufWriter);
			 
			 bufReader.close();
			 bufWriter.close();
			 Show(filePath,"C:/Program Files/360/360se3/360SE.exe");
			
			
		} catch (Exception e) {
			e.printStackTrace();
		}
		
		
	}
	
	public static void copy(BufferedReader read,BufferedWriter write) throws IOException{
		String str;
		StringBuilder dataStr = new StringBuilder();
		while((str=read.readLine())!=null){
			dataStr.append(str);
		}
		write.write(dataStr.toString());
		
		Pattern p = Pattern.compile("<table>.*</table>");
		Matcher m = p.matcher(dataStr.toString());
		while(m.find()){
			System.out.println(m.group());
			write.write(m.group());
		}
		
	}
	
	public static void Show(String url, String urliexplore) {
		try {
			Runtime rr = Runtime.getRuntime();
			rr.exec(urliexplore + " " + url);
		} catch (Exception er) {
		}
	}

 

 

分享到:
评论

相关推荐

    java web网站常用抓取其他网站内容

    Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...

    java抓取网页数据

    在"万方数据抓取"这个具体场景中,可能涉及到的是抓取学术数据库如万方的数据。万方数据库通常需要用户登录才能访问,因此我们的爬虫需要实现模拟登录功能。这通常包括将用户名和密码通过POST请求发送到登录页面,...

    java web 数据采集系统

    Java Web数据采集系统是一种利用Java技术构建的网络信息获取平台,它主要用于自动化地从Web页面上抓取所需数据。在互联网大数据的时代,数据采集成为分析市场趋势、了解用户行为、优化业务策略的重要手段。本系统...

    java抓取任何指定网页的数据

    ### Java抓取任何指定网页的数据 #### 知识点概览 本文主要介绍如何使用Java技术来抓取任何指定网页的数据。重点在于介绍抓取网页数据的方法、解析数据的手段,以及具体实施过程中的关键步骤。 #### 抓取网页数据...

    java RS232串口通讯(电子天平数据抓取)

    使用网页读取串口电子秤的重量,使用插件方式&JS方式实现, 在网页的特定地方显示当前通过RS232链接的电子秤上的重量数据。 我的博客 java RS232串口通讯上有对此有相关方法,希望能对大家有帮助。

    AMF抓取flex页面数据

    本教程将详细介绍如何抓取使用AMF协议的Flex页面数据,并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式,用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快,因为...

    java抓取网页数据实现

    在IT行业中,网络数据抓取是一项重要的技能,特别是在大数据分析、搜索引擎优化(SEO)和市场研究等领域。Java作为一门广泛使用的编程语言,提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取...

    java爬取京东数据

    8. **项目结构**:对于这个项目,"index.jsp"可能是一个简单的展示页面,"WEB-INF"目录是Java Web应用程序的标准目录,包含web.xml配置文件和其他资源。"META-INF"通常用于存放应用元数据,如Maven的pom.xml或...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...

    java实现响应式布局爬虫技术

    以下将详细介绍Java网络爬虫的基本原理,响应式布局的概念,以及如何结合这两种技术来实现高效的数据抓取和灵活的展示方式。 首先,Java网络爬虫是一种自动化工具,用于从互联网上抓取大量信息。Java语言提供了丰富...

    java 新浪网易搜狐新闻抓取源码

    Java编程语言在Web开发领域广泛应用于各种场景,其中包括数据抓取。本项目“java 新浪网易搜狐新闻抓取源码”就是这样一个实例,它利用HTMLParser这个强大的HTML解析库,来实现对三大主流门户网站——网易、搜狐和...

    Java-Web-crawler-.zip_JAVA web 爬虫_crawler_java web crawler_java

    Java Web 爬虫是用于自动化地从互联网上抓取信息的一种程序,它通常由Java编程语言编写,能够遍历网页、解析HTML或其他格式的数据,并按照特定规则存储或处理这些数据。在这个“Java-Web-crawler-.zip”压缩包中,...

    使用Java编程解析Web页面归纳.pdf

    在使用Java编程解析Web页面的过程中,开发者通常会涉及到网络数据抓取、网页DOM解析、HTML解析库等核心概念。这份由刘遵雄和聂国星撰写的文档可能详细阐述了如何利用Java技术来处理和分析网页内容。以下是这些关键...

    Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

    Java Web 爬虫,又称为Java Spider或Crawler,是一种自动抓取互联网信息的程序。在Java领域,实现Web爬虫技术可以帮助开发者获取大量网页数据,进行数据分析、搜索引擎优化、市场研究等多种用途。本资源"Java-Web-...

    基于JAVA技术的网页内容智能抓取

    3. **读取WEB页面内容**:使用Apache的commons-httpclient组件,该工具提供HTTP客户端接口,使得程序可以方便地从Web服务器获取页面内容。 4. **辅助组件**:commons-codec用于处理编码问题,如Base64编码等;...

    GatherPlatform数据抓取平台

    **GatherPlatform数据抓取平台** 是一个专为数据采集和搜索设计的高效工具,它构建于**Webmagic内核**之上,提供了便捷的Web任务配置和任务管理界面。Webmagic是一个开源的Java爬虫框架,它以轻量级、模块化和高度可...

    java 实现抓取自游网数据

    在本文中,我们将深入探讨如何使用Java来实现网络数据抓取,特别是在自游网上的数据获取。自游网是一个提供旅游信息的平台,通过抓取其数据,我们可以获取到丰富的旅游产品信息,如目的地、行程安排、价格等,这对于...

    java webHTML标签

    Java Web HTML标签是构建Web应用程序的基本元素,它们用于在页面上呈现内容并定义其结构。在Java Web开发中,HTML(超文本标记语言)通常与Servlets、JSP(JavaServer Pages)或现代Web框架如Spring MVC一起使用,来...

    java爬虫抓取图片

    Java爬虫技术是一种用于自动化网页数据抓取的编程...通过学习这些知识,不仅可以实现图片抓取,还能为其他类型的Web数据抓取打下基础。在实践中,要注意遵守网站的robots.txt协议,尊重版权,合法合规地使用爬虫技术。

    WebSpider蓝蜘蛛网页抓取 v5.1-webspider.zip

    3. **高性能**:Java的JVM(Java虚拟机)优化了内存管理和计算性能,保证了WebSpider在大规模数据抓取时的高效运行。 4. **异常处理**:Java的异常处理机制使得WebSpider能优雅地处理各种可能出现的问题,提高程序的...

Global site tag (gtag.js) - Google Analytics