package com.overseas;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class DownLoadDB {
public static void main(String[] args) throws Exception{
String sCurrentLine;
String sTotalString;
sCurrentLine="";
sTotalString="";
java.io.InputStream l_urlStream;
java.net.URL l_url = new java.net.URL("http://www.500wan.com/pages/info/datachart/ssq/history/inc/history.php?limit=0&start=09080&end=00000");
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.connect();
l_urlStream = l_connection.getInputStream() ;
java.io.BufferedReader erl_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
while ((sCurrentLine = erl_reader.readLine()) != null){
sTotalString+=sCurrentLine;
}
test(sTotalString);
}
public static void test(String txt){
String input = txt;
String exp1 = "[\\s]*[ ]*[\\s]*[ ]*([\\d, -]*)[\\s]*[ ]*[\\s]*[ ]*";
String regex = "<tr class=\"t_tr1\"><!--<td>"+exp1+"</td>--><td>"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td></tr>";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
while(matcher.find()){
for(int i=1; i<=matcher.groupCount(); i++){
System.out.print(matcher.group(i) +" ");
}
System.out.println("");
}
}
}
分享到:
相关推荐
在本文中,我们将深入探讨如何使用C#语言来抓取网页数据,特别是在彩票数据查询方面的应用。C#是一种广泛用于开发Windows应用程序、Web服务以及游戏的面向对象的编程语言,其丰富的类库和强大的功能使其成为数据抓取...
抓取新浪财经上股票数据的matlab代码
本教程将带你了解如何使用Python来抓取新浪微博的数据。 首先,我们需要安装必要的库。Python中用于网络请求的库如`requests`,用于解析HTML或XML文档的库如`BeautifulSoup`,以及可能需要的`json`库,用于处理抓取...
抓取G529数据中...完成! 抓取G1204数据中...完成! 抓取G279数据中...完成! 抓取G276数据中...完成! 抓取G1022数据中...完成! 抓取G280数据中...完成! 抓取G1206数据中...完成! 抓取G1224数据中...完成! 抓取G818数据...
总结来说,"抓取新浪新闻文章"涉及到的关键知识点包括:网络爬虫技术、HTTP协议、HTML解析、JSON和XML数据格式的处理、登录验证、反爬策略以及数据存储。掌握这些技能,将能有效地从新浪新闻等网站获取并处理大量...
在IT行业中,自动抓取数据是一项重要的技能,特别是在金融领域,如股票市场分析。"自动抓取yahoo股票数据软件"是这样一个工具,它能够高效地从Yahoo Finance和MSN Money这样的金融网站获取实时或历史的股票数据,...
本文将基于“新浪网股票数据抓取以及存储”的主题,深入探讨如何利用编程技术从新浪网获取股票数据,并将其有效地存储以供后续分析。 首先,我们需要了解数据抓取的基本概念。数据抓取,又称网页爬虫,是一种自动...
企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等。 每天定时抓取 自动刷新token 省份、市的所有代码 token自动刷新 根据地址自动将省份、市、区县进行分割 所有...
标题“新浪微博抓取数据”揭示了本项目的核心内容,即我们拥有从新浪微博平台获取的数据集。这类数据通常包含了用户发布的信息、互动行为(如点赞、评论、转发)、用户元数据等,是社会网络分析、舆情监测、情感分析...
本教程将详细介绍如何抓取使用AMF协议的Flex页面数据,并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式,用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快,因为...
在本实例中,我们将探讨如何抓取新浪新闻网站上的数据,这是一个典型的网络爬虫项目。首先,我们需要了解网络爬虫的基本概念。网络爬虫是一种自动提取网页信息的程序,通过模拟浏览器发送请求并解析响应来获取所需...
### Java抓取网站数据知识点详解 #### 一、概述 在现代互联网开发中,抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘,掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...
Python的pandas库是数据分析的好帮手,可以方便地将抓取的数据整理成DataFrame,再进行清洗、分析和保存为CSV或Excel文件。如果数据量巨大,可能需要考虑使用数据库如MySQL或NoSQL的MongoDB来存储。 最后,关于道德...
在IT领域,网络数据抓取是一项重要的技能,特别是在大数据分析、搜索引擎优化和市场研究中。本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据...
在Python编程领域,数据抓取是一项重要的技能,特别是在地理信息系统(GIS)中,获取地点信息(Point of Interest,简称POI)是常见的需求。本文将深入探讨如何利用Python抓取高德地图的POI数据,并解决数据量限制的...
网页数据比分抓取源码是一种常见的信息技术应用,主要用于自动化地从互联网上收集和处理特定的比分信息。在体育赛事如足球、篮球等中,实时比分更新对于球迷和数据分析人员至关重要。这个"网页数据比分抓取源码"演示...
python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
机器人视觉抓取数据集Jacquard V2是一个广泛用于机器人学习和计算机视觉研究的重要资源,尤其在物体识别、抓取规划以及深度学习算法的训练中起到关键作用。这个数据集包含了大量的图像和相应的标注信息,旨在帮助...
在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...