`
philip01
  • 浏览: 47117 次
  • 来自: ...
社区版块
存档分类
最新评论

抓取新浪彩票数据

阅读更多

package com.overseas;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownLoadDB {
 
 public static void main(String[] args) throws Exception{
  String sCurrentLine;
  String sTotalString;
  sCurrentLine="";
  sTotalString="";
  java.io.InputStream l_urlStream;
  java.net.URL l_url = new java.net.URL("http://www.500wan.com/pages/info/datachart/ssq/history/inc/history.php?limit=0&start=09080&end=00000");
  java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
  l_connection.connect();
  l_urlStream = l_connection.getInputStream() ;
  java.io.BufferedReader erl_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
  while ((sCurrentLine = erl_reader.readLine()) != null){
   sTotalString+=sCurrentLine;
  }
  test(sTotalString);
 }
 
 public static void test(String txt){
  String input = txt;
    String exp1 = "[\\s]*[ ]*[\\s]*[ ]*([\\d, -]*)[\\s]*[ ]*[\\s]*[ ]*";
    String  regex = "<tr class=\"t_tr1\"><!--<td>"+exp1+"</td>--><td>"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont2\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td class=\"t_cfont4\">"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td><td>"+exp1+"</td></tr>";

 

   Pattern pattern = Pattern.compile(regex);
   Matcher matcher = pattern.matcher(input);
   while(matcher.find()){
    for(int i=1; i<=matcher.groupCount(); i++){
       System.out.print(matcher.group(i) +"      ");
   }
    System.out.println("");
    }
  
 }
 

}

分享到:
评论

相关推荐

    C#抓取网页数据,彩票数据查询

    在本文中,我们将深入探讨如何使用C#语言来抓取网页数据,特别是在彩票数据查询方面的应用。C#是一种广泛用于开发Windows应用程序、Web服务以及游戏的面向对象的编程语言,其丰富的类库和强大的功能使其成为数据抓取...

    抓取新浪财经股票数据

    抓取新浪财经上股票数据的matlab代码

    python抓取新浪微博数据

    本教程将带你了解如何使用Python来抓取新浪微博的数据。 首先,我们需要安装必要的库。Python中用于网络请求的库如`requests`,用于解析HTML或XML文档的库如`BeautifulSoup`,以及可能需要的`json`库,用于处理抓取...

    matlab爬虫抓取高铁信息数据

    抓取G529数据中...完成! 抓取G1204数据中...完成! 抓取G279数据中...完成! 抓取G276数据中...完成! 抓取G1022数据中...完成! 抓取G280数据中...完成! 抓取G1206数据中...完成! 抓取G1224数据中...完成! 抓取G818数据...

    抓取新浪新闻文章

    总结来说,"抓取新浪新闻文章"涉及到的关键知识点包括:网络爬虫技术、HTTP协议、HTML解析、JSON和XML数据格式的处理、登录验证、反爬策略以及数据存储。掌握这些技能,将能有效地从新浪新闻等网站获取并处理大量...

    自动抓取yahoo股票数据软件

    在IT行业中,自动抓取数据是一项重要的技能,特别是在金融领域,如股票市场分析。"自动抓取yahoo股票数据软件"是这样一个工具,它能够高效地从Yahoo Finance和MSN Money这样的金融网站获取实时或历史的股票数据,...

    新浪网股票数据抓取以及存储

    本文将基于“新浪网股票数据抓取以及存储”的主题,深入探讨如何利用编程技术从新浪网获取股票数据,并将其有效地存储以供后续分析。 首先,我们需要了解数据抓取的基本概念。数据抓取,又称网页爬虫,是一种自动...

    企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等

    企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等。 每天定时抓取 自动刷新token 省份、市的所有代码 token自动刷新 根据地址自动将省份、市、区县进行分割 所有...

    新浪微博抓取数据

    标题“新浪微博抓取数据”揭示了本项目的核心内容,即我们拥有从新浪微博平台获取的数据集。这类数据通常包含了用户发布的信息、互动行为(如点赞、评论、转发)、用户元数据等,是社会网络分析、舆情监测、情感分析...

    AMF抓取flex页面数据

    本教程将详细介绍如何抓取使用AMF协议的Flex页面数据,并涉及模拟登录和页面抓取的相关知识。 1. **AMF简介** - AMF是一种高效的数据序列化格式,用于在Flex客户端和服务器之间传输数据。它比XML或JSON更快,因为...

    抓取新浪的新闻项目 简单实例

    在本实例中,我们将探讨如何抓取新浪新闻网站上的数据,这是一个典型的网络爬虫项目。首先,我们需要了解网络爬虫的基本概念。网络爬虫是一种自动提取网页信息的程序,通过模拟浏览器发送请求并解析响应来获取所需...

    java抓取网站数据

    ### Java抓取网站数据知识点详解 #### 一、概述 在现代互联网开发中,抓取网站数据是一项重要的技能。无论是进行市场调研、竞品分析还是数据挖掘,掌握如何使用Java来抓取数据都是十分必要的。本篇文章将详细介绍...

    抓取淘宝页面数据

    Python的pandas库是数据分析的好帮手,可以方便地将抓取的数据整理成DataFrame,再进行清洗、分析和保存为CSV或Excel文件。如果数据量巨大,可能需要考虑使用数据库如MySQL或NoSQL的MongoDB来存储。 最后,关于道德...

    Java抓取网页数据Demo

    在IT领域,网络数据抓取是一项重要的技能,特别是在大数据分析、搜索引擎优化和市场研究中。本文将详细讨论如何使用Java语言来抓取网页数据,包括两种主要方法:直接抓取原网页内容和处理网页中的JavaScript返回数据...

    python抓取高德POI数据,突破数据量限制

    在Python编程领域,数据抓取是一项重要的技能,特别是在地理信息系统(GIS)中,获取地点信息(Point of Interest,简称POI)是常见的需求。本文将深入探讨如何利用Python抓取高德地图的POI数据,并解决数据量限制的...

    网页数据比分抓取源码

    网页数据比分抓取源码是一种常见的信息技术应用,主要用于自动化地从互联网上收集和处理特定的比分信息。在体育赛事如足球、篮球等中,实时比分更新对于球迷和数据分析人员至关重要。这个"网页数据比分抓取源码"演示...

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    机器人视觉抓取数据集Jacquard V2-代码

    机器人视觉抓取数据集Jacquard V2是一个广泛用于机器人学习和计算机视觉研究的重要资源,尤其在物体识别、抓取规划以及深度学习算法的训练中起到关键作用。这个数据集包含了大量的图像和相应的标注信息,旨在帮助...

    java抓取网页数据

    在“java抓取网页数据”这个主题中,我们将深入探讨如何利用Java来抓取并处理互联网上的信息。 首先,我们要了解什么是网络爬虫。网络爬虫(Web Crawler)是自动遍历互联网的程序,通过抓取网页内容并存储在本地,...

Global site tag (gtag.js) - Google Analytics