抓取新浪彩票数据 - philip01 - ITeye博客

`

philip01

浏览: 47374 次
来自: ...

最近访客更多访客>>

jp8happy

stevenchen

cjb19873

xieyuncs123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

宋建勇： org.mozilla.intl.chardet.HtmlCh ...
批量修改文件的编码
fhtwins：报错！通过DEBUG可知：InputStream instre ...
识别图片数字-验证码
leifeng2：不行啊，报错！ 10:26:27.321 [http-8080 ...
识别图片数字-验证码

抓取新浪彩票数据

阅读更多

package com.overseas;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownLoadDB {

public static void main(String[] args) throws Exception{
  String sCurrentLine;
  String sTotalString;
  sCurrentLine="";
  sTotalString="";
  java.io.InputStream l_urlStream;
  java.net.URL l_url = new java.net.URL("http://www.500wan.com/pages/info/datachart/ssq/history/inc/history.php?limit=0&start=09080&end=00000");
  java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
  l_connection.connect();
  l_urlStream = l_connection.getInputStream() ;
  java.io.BufferedReader erl_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
  while ((sCurrentLine = erl_reader.readLine()) != null){
   sTotalString+=sCurrentLine;
  }
  test(sTotalString);
}

public static void test(String txt){
  String input = txt;
    String exp1 = "[\\s]*[ ]*[\\s]*[ ]*([\\d, -]*)[\\s]*[ ]*[\\s]*[ ]*";
    String regex = "<tr class=\"t_tr1\"><td>"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td></tr>";

   Pattern pattern = Pattern.compile(regex);
   Matcher matcher = pattern.matcher(input);
   while(matcher.find()){
    for(int i=1; i<=matcher.groupCount(); i++){
   System.out.print(matcher.group(i) +"      ");
   }
    System.out.println("");
  }

}

}

分享到：

Flex中利用ByteArray与BitmapData互相转换 ... | java 正则表达式

2009-08-06 15:44
浏览 2085
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C#抓取网页数据，彩票数据查询: 在本文中，我们将深入探讨如何使用C#语言来抓取网页数据，特别是在彩票数据查询方面的应用。C#是一种广泛用于开发Windows应用程序、Web服务以及游戏的面向对象的编程语言，其丰富的类库和强大的功能使其成为数据抓取...

抓取新浪财经股票数据: 抓取新浪财经上股票数据的matlab代码

python抓取新浪微博数据: 本教程将带你了解如何使用Python来抓取新浪微博的数据。首先，我们需要安装必要的库。Python中用于网络请求的库如`requests`，用于解析HTML或XML文档的库如`BeautifulSoup`，以及可能需要的`json`库，用于处理抓取...

matlab爬虫抓取高铁信息数据: 抓取G529数据中...完成! 抓取G1204数据中...完成! 抓取G279数据中...完成! 抓取G276数据中...完成! 抓取G1022数据中...完成! 抓取G280数据中...完成! 抓取G1206数据中...完成! 抓取G1224数据中...完成! 抓取G818数据...

抓取新浪新闻文章: 总结来说，"抓取新浪新闻文章"涉及到的关键知识点包括：网络爬虫技术、HTTP协议、HTML解析、JSON和XML数据格式的处理、登录验证、反爬策略以及数据存储。掌握这些技能，将能有效地从新浪新闻等网站获取并处理大量...

自动抓取yahoo股票数据软件: 在IT行业中，自动抓取数据是一项重要的技能，特别是在金融领域，如股票市场分析。"自动抓取yahoo股票数据软件"是这样一个工具，它能够高效地从Yahoo Finance和MSN Money这样的金融网站获取实时或历史的股票数据，...

新浪网股票数据抓取以及存储: 本文将基于“新浪网股票数据抓取以及存储”的主题，深入探讨如何利用编程技术从新浪网获取股票数据，并将其有效地存储以供后续分析。首先，我们需要了解数据抓取的基本概念。数据抓取，又称网页爬虫，是一种自动...

基于Scrapy框架，用于抓取新浪微博数据，主要包括微博内容，评论以及用户信息资料齐全+文档+源码.zip: 基于Scrapy框架，用于抓取新浪微博数据，主要包括微博内容，评论以及用户信息资料齐全+文档+源码.zip 【备注】 1、该项目是个人高分项目源码，已获导师指导认可通过，答辩评审分达到95分 2、该资源内项目代码都经过...

企查查企业信息爬虫，企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等: 企查查企业信息爬虫，企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等。每天定时抓取自动刷新token 省份、市的所有代码 token自动刷新根据地址自动将省份、市、区县进行分割所有...

新浪微博抓取数据: 标题“新浪微博抓取数据”揭示了本项目的核心内容，即我们拥有从新浪微博平台获取的数据集。这类数据通常包含了用户发布的信息、互动行为（如点赞、评论、转发）、用户元数据等，是社会网络分析、舆情监测、情感分析...

抓取新浪的新闻项目简单实例: 在本实例中，我们将探讨如何抓取新浪新闻网站上的数据，这是一个典型的网络爬虫项目。首先，我们需要了解网络爬虫的基本概念。网络爬虫是一种自动提取网页信息的程序，通过模拟浏览器发送请求并解析响应来获取所需...

AMF抓取flex页面数据: 本教程将详细介绍如何抓取使用AMF协议的Flex页面数据，并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式，用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快，因为...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取网站数据: ### Java抓取网站数据知识点详解 #### 一、概述在现代互联网开发中，抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘，掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

抓取淘宝页面数据: Python的pandas库是数据分析的好帮手，可以方便地将抓取的数据整理成DataFrame，再进行清洗、分析和保存为CSV或Excel文件。如果数据量巨大，可能需要考虑使用数据库如MySQL或NoSQL的MongoDB来存储。最后，关于道德...

python抓取高德POI数据，突破数据量限制: 在Python编程领域，数据抓取是一项重要的技能，特别是在地理信息系统（GIS）中，获取地点信息（Point of Interest，简称POI）是常见的需求。本文将深入探讨如何利用Python抓取高德地图的POI数据，并解决数据量限制的...

Java抓取网页数据Demo: 在IT领域，网络数据抓取是一项重要的技能，特别是在大数据分析、搜索引擎优化和市场研究中。本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据...

网页数据比分抓取源码: 网页数据比分抓取源码是一种常见的信息技术应用，主要用于自动化地从互联网上收集和处理特定的比分信息。在体育赛事如足球、篮球等中，实时比分更新对于球迷和数据分析人员至关重要。这个"网页数据比分抓取源码"演示...

python爬虫，如何抓取网页数据: python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，...

抓取检测数据集Cornell生成抓取检测标签.mat文件: 在学习古月居课程《基于深度学习的机器人平面抓取》的过程中，针对GGCNN抓取网络，训练GGCNN需要两个文件：.mat格式的标签文件和.tiff格式的深度图，因为文件体积太大，我分成两个文件来发。本资源是根据pcd****...

Global site tag (gtag.js) - Google Analytics