java web页面数据抓取 - - ITeye博客

`

fhqibjg

浏览: 55224 次
性别:
来自: 湖南

最近访客更多访客>>

hitwangzhuo

蓝骑士

raingel520

wpd

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qq44056919：你好，我参考了您的这个笔记的步骤做了测试，可是还是无法返回at ...
cas单点登录反回用户多字段数据笔记
kobe_byrant： lz写的很好啊，逻辑性很强。
httpclient发送https请求
yuwushen： DFA dfa = new DFA(); dfa.cr ...
java敏感词全文替换
fhqibjg： comet927cpu 写道代码有错误修改的if (wor ...
java敏感词全文替换
comet927cpu：代码有错误修改的if (words[j] != conCh ...
java敏感词全文替换

java web页面数据抓取

博客分类：

java

Web 数据抓取采集

阅读更多

java抓取数据后，写入本地文件

	public static void main(String[] args){
		 URL url = null;
		 String path = null;
		 String filePath = null;
		try {
			 url =  new URL("http://publish.it168.com/2005/0915/20050915022401.shtml");
			 URLConnection urlCon = url.openConnection();
			 BufferedReader bufReader = new BufferedReader(new InputStreamReader(urlCon.getInputStream(),"gbk"));
			 
			 SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMdd");
			 String dateString = formatter.format(new Date());
			 
			 SimpleDateFormat formatter1 = new SimpleDateFormat("HHmmss");
			 String dateString1 = formatter1.format(new Date());
			 
			 path = "e:/webDataGather/"+dateString;
			 File dirFile =new File(path);
			 if(!(dirFile.exists()))
				 dirFile.mkdirs();
		     
			 filePath = path+"/"+dateString1+".html";
			 BufferedWriter bufWriter = new BufferedWriter(new  FileWriter(filePath));
			 
			 copy(bufReader, bufWriter);
			 
			 bufReader.close();
			 bufWriter.close();
			 Show(filePath,"C:/Program Files/360/360se3/360SE.exe");
			
			
		} catch (Exception e) {
			e.printStackTrace();
		}
		
		
	}
	
	public static void copy(BufferedReader read,BufferedWriter write) throws IOException{
		String str;
		StringBuilder dataStr = new StringBuilder();
		while((str=read.readLine())!=null){
			dataStr.append(str);
		}
		write.write(dataStr.toString());
		
		Pattern p = Pattern.compile("<table>.*</table>");
		Matcher m = p.matcher(dataStr.toString());
		while(m.find()){
			System.out.println(m.group());
			write.write(m.group());
		}
		
	}
	
	public static void Show(String url, String urliexplore) {
		try {
			Runtime rr = Runtime.getRuntime();
			rr.exec(urliexplore + " " + url);
		} catch (Exception er) {
		}
	}

分享到：

java读取excel表格数据 | freemarker基础

2010-07-19 21:27
浏览 1989
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java web网站常用抓取其他网站内容: Java Web网站抓取其他网站内容是一项常见的技术需求，主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。首先，我们需要了解的是网页抓取的基本...

java抓取网页数据: 在"万方数据抓取"这个具体场景中，可能涉及到的是抓取学术数据库如万方的数据。万方数据库通常需要用户登录才能访问，因此我们的爬虫需要实现模拟登录功能。这通常包括将用户名和密码通过POST请求发送到登录页面，...

java web 数据采集系统: Java Web数据采集系统是一种利用Java技术构建的网络信息获取平台，它主要用于自动化地从Web页面上抓取所需数据。在互联网大数据的时代，数据采集成为分析市场趋势、了解用户行为、优化业务策略的重要手段。本系统...

java抓取任何指定网页的数据: ### Java抓取任何指定网页的数据 #### 知识点概览本文主要介绍如何使用Java技术来抓取任何指定网页的数据。重点在于介绍抓取网页数据的方法、解析数据的手段，以及具体实施过程中的关键步骤。 #### 抓取网页数据...

java RS232串口通讯（电子天平数据抓取）: 使用网页读取串口电子秤的重量，使用插件方式&JS方式实现，在网页的特定地方显示当前通过RS232链接的电子秤上的重量数据。我的博客 java RS232串口通讯上有对此有相关方法，希望能对大家有帮助。

AMF抓取flex页面数据: 本教程将详细介绍如何抓取使用AMF协议的Flex页面数据，并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式，用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快，因为...

java爬取京东数据: 8. **项目结构**：对于这个项目，"index.jsp"可能是一个简单的展示页面，"WEB-INF"目录是Java Web应用程序的标准目录，包含web.xml配置文件和其他资源。"META-INF"通常用于存放应用元数据，如Maven的pom.xml或...

java抓取网页数据实现: 在IT行业中，网络数据抓取是一项重要的技能，特别是在大数据分析、搜索引擎优化（SEO）和市场研究等领域。Java作为一门广泛使用的编程语言，提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取...

Java爬虫Jsoup+httpclient获取动态生成的数据: 在Web开发和数据抓取领域，Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据，特别是那些通过JavaScript动态加载的数据...

java实现响应式布局爬虫技术: 以下将详细介绍Java网络爬虫的基本原理，响应式布局的概念，以及如何结合这两种技术来实现高效的数据抓取和灵活的展示方式。首先，Java网络爬虫是一种自动化工具，用于从互联网上抓取大量信息。Java语言提供了丰富...

java 新浪网易搜狐新闻抓取源码: Java编程语言在Web开发领域广泛应用于各种场景，其中包括数据抓取。本项目“java 新浪网易搜狐新闻抓取源码”就是这样一个实例，它利用HTMLParser这个强大的HTML解析库，来实现对三大主流门户网站——网易、搜狐和...

Java-Web-crawler-.zip_JAVA web 爬虫_crawler_java web crawler_java: Java Web 爬虫是用于自动化地从互联网上抓取信息的一种程序，它通常由Java编程语言编写，能够遍历网页、解析HTML或其他格式的数据，并按照特定规则存储或处理这些数据。在这个“Java-Web-crawler-.zip”压缩包中，...

使用Java编程解析Web页面归纳.pdf: 在使用Java编程解析Web页面的过程中，开发者通常会涉及到网络数据抓取、网页DOM解析、HTML解析库等核心概念。这份由刘遵雄和聂国星撰写的文档可能详细阐述了如何利用Java技术来处理和分析网页内容。以下是这些关键...

Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid: Java Web 爬虫，又称为Java Spider或Crawler，是一种自动抓取互联网信息的程序。在Java领域，实现Web爬虫技术可以帮助开发者获取大量网页数据，进行数据分析、搜索引擎优化、市场研究等多种用途。本资源"Java-Web-...

基于JAVA技术的网页内容智能抓取: 3. **读取WEB页面内容**：使用Apache的commons-httpclient组件，该工具提供HTTP客户端接口，使得程序可以方便地从Web服务器获取页面内容。 4. **辅助组件**：commons-codec用于处理编码问题，如Base64编码等；...

基于java爬取股票数据的一个项目.zip: 该项目是使用Java编程语言实现的股票数据爬取系统，旨在从网络上抓取实时或历史的股票市场数据。以下是对这个项目中可能涉及的关键技术、概念和知识点的详细解释： 1. **网络爬虫（Web Crawler）**：网络爬虫是自动...

GatherPlatform数据抓取平台: **GatherPlatform数据抓取平台** 是一个专为数据采集和搜索设计的高效工具，它构建于**Webmagic内核**之上，提供了便捷的Web任务配置和任务管理界面。Webmagic是一个开源的Java爬虫框架，它以轻量级、模块化和高度可...

java 实现抓取自游网数据: 在本文中，我们将深入探讨如何使用Java来实现网络数据抓取，特别是在自游网上的数据获取。自游网是一个提供旅游信息的平台，通过抓取其数据，我们可以获取到丰富的旅游产品信息，如目的地、行程安排、价格等，这对于...

java webHTML标签: Java Web HTML标签是构建Web应用程序的基本元素，它们用于在页面上呈现内容并定义其结构。在Java Web开发中，HTML（超文本标记语言）通常与Servlets、JSP（JavaServer Pages）或现代Web框架如Spring MVC一起使用，来...

java爬虫抓取图片: Java爬虫技术是一种用于自动化网页数据抓取的编程...通过学习这些知识，不仅可以实现图片抓取，还能为其他类型的Web数据抓取打下基础。在实践中，要注意遵守网站的robots.txt协议，尊重版权，合法合规地使用爬虫技术。

Global site tag (gtag.js) - Google Analytics