java抓取数据后,写入本地文件
public static void main(String[] args){
URL url = null;
String path = null;
String filePath = null;
try {
url = new URL("http://publish.it168.com/2005/0915/20050915022401.shtml");
URLConnection urlCon = url.openConnection();
BufferedReader bufReader = new BufferedReader(new InputStreamReader(urlCon.getInputStream(),"gbk"));
SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMdd");
String dateString = formatter.format(new Date());
SimpleDateFormat formatter1 = new SimpleDateFormat("HHmmss");
String dateString1 = formatter1.format(new Date());
path = "e:/webDataGather/"+dateString;
File dirFile =new File(path);
if(!(dirFile.exists()))
dirFile.mkdirs();
filePath = path+"/"+dateString1+".html";
BufferedWriter bufWriter = new BufferedWriter(new FileWriter(filePath));
copy(bufReader, bufWriter);
bufReader.close();
bufWriter.close();
Show(filePath,"C:/Program Files/360/360se3/360SE.exe");
} catch (Exception e) {
e.printStackTrace();
}
}
public static void copy(BufferedReader read,BufferedWriter write) throws IOException{
String str;
StringBuilder dataStr = new StringBuilder();
while((str=read.readLine())!=null){
dataStr.append(str);
}
write.write(dataStr.toString());
Pattern p = Pattern.compile("<table>.*</table>");
Matcher m = p.matcher(dataStr.toString());
while(m.find()){
System.out.println(m.group());
write.write(m.group());
}
}
public static void Show(String url, String urliexplore) {
try {
Runtime rr = Runtime.getRuntime();
rr.exec(urliexplore + " " + url);
} catch (Exception er) {
}
}
分享到:
相关推荐
Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...
在"万方数据抓取"这个具体场景中,可能涉及到的是抓取学术数据库如万方的数据。万方数据库通常需要用户登录才能访问,因此我们的爬虫需要实现模拟登录功能。这通常包括将用户名和密码通过POST请求发送到登录页面,...
Java Web数据采集系统是一种利用Java技术构建的网络信息获取平台,它主要用于自动化地从Web页面上抓取所需数据。在互联网大数据的时代,数据采集成为分析市场趋势、了解用户行为、优化业务策略的重要手段。本系统...
### Java抓取任何指定网页的数据 #### 知识点概览 本文主要介绍如何使用Java技术来抓取任何指定网页的数据。重点在于介绍抓取网页数据的方法、解析数据的手段,以及具体实施过程中的关键步骤。 #### 抓取网页数据...
使用网页读取串口电子秤的重量,使用插件方式&JS方式实现, 在网页的特定地方显示当前通过RS232链接的电子秤上的重量数据。 我的博客 java RS232串口通讯上有对此有相关方法,希望能对大家有帮助。
本教程将详细介绍如何抓取使用AMF协议的Flex页面数据,并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式,用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快,因为...
在IT行业中,网络数据抓取是一项重要的技能,特别是在大数据分析、搜索引擎优化(SEO)和市场研究等领域。Java作为一门广泛使用的编程语言,提供了强大的工具和库来帮助开发者抓取和处理网页数据。以下是对"java抓取...
8. **项目结构**:对于这个项目,"index.jsp"可能是一个简单的展示页面,"WEB-INF"目录是Java Web应用程序的标准目录,包含web.xml配置文件和其他资源。"META-INF"通常用于存放应用元数据,如Maven的pom.xml或...
在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...
以下将详细介绍Java网络爬虫的基本原理,响应式布局的概念,以及如何结合这两种技术来实现高效的数据抓取和灵活的展示方式。 首先,Java网络爬虫是一种自动化工具,用于从互联网上抓取大量信息。Java语言提供了丰富...
Java编程语言在Web开发领域广泛应用于各种场景,其中包括数据抓取。本项目“java 新浪网易搜狐新闻抓取源码”就是这样一个实例,它利用HTMLParser这个强大的HTML解析库,来实现对三大主流门户网站——网易、搜狐和...
Java Web 爬虫是用于自动化地从互联网上抓取信息的一种程序,它通常由Java编程语言编写,能够遍历网页、解析HTML或其他格式的数据,并按照特定规则存储或处理这些数据。在这个“Java-Web-crawler-.zip”压缩包中,...
在使用Java编程解析Web页面的过程中,开发者通常会涉及到网络数据抓取、网页DOM解析、HTML解析库等核心概念。这份由刘遵雄和聂国星撰写的文档可能详细阐述了如何利用Java技术来处理和分析网页内容。以下是这些关键...
Java Web 爬虫,又称为Java Spider或Crawler,是一种自动抓取互联网信息的程序。在Java领域,实现Web爬虫技术可以帮助开发者获取大量网页数据,进行数据分析、搜索引擎优化、市场研究等多种用途。本资源"Java-Web-...
3. **读取WEB页面内容**:使用Apache的commons-httpclient组件,该工具提供HTTP客户端接口,使得程序可以方便地从Web服务器获取页面内容。 4. **辅助组件**:commons-codec用于处理编码问题,如Base64编码等;...
**GatherPlatform数据抓取平台** 是一个专为数据采集和搜索设计的高效工具,它构建于**Webmagic内核**之上,提供了便捷的Web任务配置和任务管理界面。Webmagic是一个开源的Java爬虫框架,它以轻量级、模块化和高度可...
在本文中,我们将深入探讨如何使用Java来实现网络数据抓取,特别是在自游网上的数据获取。自游网是一个提供旅游信息的平台,通过抓取其数据,我们可以获取到丰富的旅游产品信息,如目的地、行程安排、价格等,这对于...
Java Web HTML标签是构建Web应用程序的基本元素,它们用于在页面上呈现内容并定义其结构。在Java Web开发中,HTML(超文本标记语言)通常与Servlets、JSP(JavaServer Pages)或现代Web框架如Spring MVC一起使用,来...
Java爬虫技术是一种用于自动化网页数据抓取的编程...通过学习这些知识,不仅可以实现图片抓取,还能为其他类型的Web数据抓取打下基础。在实践中,要注意遵守网站的robots.txt协议,尊重版权,合法合规地使用爬虫技术。
3. **高性能**:Java的JVM(Java虚拟机)优化了内存管理和计算性能,保证了WebSpider在大规模数据抓取时的高效运行。 4. **异常处理**:Java的异常处理机制使得WebSpider能优雅地处理各种可能出现的问题,提高程序的...