`

分析BetBrain数据的总结

    博客分类:
  • java
 
阅读更多

BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。

 

然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。

 

所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:

 

1. 重复的事情尽量用机器做,人工只处理逻辑的部分。

1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。

 

1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。

 

1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。

package com.hym.odds.util;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;

/**
 * FreeMarkerUtil
 * 
 * @project betbrain
 * @author huyumin
 * @date 2011-9-17
 */
public class FreeMarkerUtil {

    public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);


    public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
        FileOutputStream fos = null;
        OutputStreamWriter osw = null;
        Writer out = null;
        try {
            Configuration freemarker_cfg = new Configuration();
            freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
            freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
            freemarker_cfg.setDefaultEncoding("UTF-8");
            freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
            Template template = freemarker_cfg.getTemplate(vsource);
            template.setEncoding("UTF-8");
            //creatDirs(vpath + vtarget);
            File afile = new File(vpath + vtarget);
            fos = new FileOutputStream(afile);
            osw = new OutputStreamWriter(fos, "UTF-8");
            out = new BufferedWriter(osw);
            template.process(propMap, out);
            out.flush();
        } catch (TemplateException e) {
           e.printStackTrace();
            return false;
        } catch (IOException e) {
            e.printStackTrace();
            return false;
        } finally {
            if (out != null) {
                try {
                    out.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (osw != null) {
                try {
                    osw.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
        }
        return true;
    }


    public static boolean creatDirs(String path) {
        File aFile = new File(path);
        if (!aFile.exists()) {
            return aFile.mkdirs();
        } else {
            return true;
        }
    }

}

 

 

1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。

 

<?xml version="1.0" encoding="utf-8" ?>
<project default="main" basedir=".">

   <target name="main">
   	<!--
   	<echo>replace sql...</echo>
	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
        <replacefilter token="varchar(100)" value="varchar(255)"/>
		<replacefilter token="AUTO_INCREMENT=17 " value=""/>
		<replacefilter token="auto_increment" value=""/>
    </replace>
	-->
   	<!--
	<echo>replace mapper.xml...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8">
		<replacefilter token="(`" value="(`id`,`"/>
        <replacefilter token="values (" value="values (#{id},"/>
		
		<replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/>
		<replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/>
    </replace>
   	-->
   	<!--
   	<echo>replace ocationRelation...</echo>
   	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
   		<replacefilter token="ocationReIation" value="ocationRelation"/>
   	</replace>
   	-->
	<!--
	<echo>replace 标注...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
		<replacefilter token="private" value="@XStreamAsAttribute private"/>
    </replace>
   	-->
   	
   	<echo>replace ventAtion...</echo>
   	   	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
   	   		<replacefilter token="ventAtion" value="ventAction"/>
   	   	</replace>
   	</target>
</project>

 

2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。

 

3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。

package com.hym.odds.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;

public class XMLParseUtil {
	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
					xmlContent);
			T dto = null;
			if (m.find()) {
				String s = m.group();

				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());

				xs.processAnnotations(clazT);
				xs.alias("entities", clazT);
				xs.alias(clazD.getSimpleName(), clazD);
				xs.addImplicitCollection(clazT, "entities");
				dto = (T) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static UpdateDataDTO parseUpdateXML(String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
					.matcher(xmlContent);
			UpdateDataDTO dto = null;
			while (m.find()) {
				String s = m.group();
				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());
				xs.processAnnotations(UpdateDataDTO.class);
				xs.alias("UpdateData", UpdateDataDTO.class);

				dto = (UpdateDataDTO) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
}

 

 

 

4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。

 

@SuppressWarnings("rawtypes")
	public static void insertObjectToDB(List list, String className,
			ApplicationContext context) {
		if ("BettingOffer".equals(className)) {
			BettingOfferService bettingOfferService = (BettingOfferService) context
					.getBean("bettingOfferService");
			
//			for (Object object : list) {
//				bettingOfferService.insert((BettingOffer) object);
//			}
			
			
			int start = 0;
			int end = 499;
			int size = list.size();
			if (end >= size) {
				end = size;
			}
			
			while (end <= size && start < end) {
				List subList = list.subList(start, end);
				bettingOfferService.insertBatch(subList);
				System.out.println("batch insert start = " + start + ", end = " + end);
				start = start + 500;
				end = end + 500;
				if (end >= size) {
					end = size;
				}
			}
			
			//bettingOfferService.insertBatch(list);
		} else if ("BettingOfferStatus".equals(className)) {

 

分享到:
评论

相关推荐

    数据库基础测验20241113.doc

    数据库基础测验20241113.doc

    微信小程序下拉选择组件

    微信小程序下拉选择组件

    DICOM文件+DX放射平片-数字X射线图像DICOM测试文件

    DICOM文件+DX放射平片—数字X射线图像DICOM测试文件,文件为.dcm类型DICOM图像文件文件,仅供需要了解DICOM或相关DICOM开发的技术人员当作测试数据或研究使用,请勿用于非法用途。

    Jupyter Notebook《基于双流 Faster R-CNN 网络的 图像篡改检测》+项目源码+文档说明+代码注释

    <项目介绍> - 基于双流 Faster R-CNN 网络的 图像篡改检测 - 不懂运行,下载完可以私聊问,可远程教学 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------

    使用epf捕获没有CA证书的SSLTLS明文(LinuxAndroid内核支持amd64arm64).zip

    c语言

    (源码)基于Arduino的天文数据库管理系统.zip

    # 基于Arduino的天文数据库管理系统 ## 项目简介 本项目是一个基于Arduino的天文数据库管理系统,旨在为Arduino设备提供一个完整的天文数据库,包括星星、星系、星团等天体数据。项目支持多种语言的星座名称,并提供了详细的天体信息,如赤道坐标、视星等。 ## 项目的主要特性和功能 星座目录包含88个星座,提供拉丁语、英语和法语的缩写和全名。 恒星目录包含494颗亮度达到4等的恒星。 梅西耶目录包含110个梅西耶天体。 NGC目录包含3993个NGC天体,亮度达到14等。 IC目录包含401个IC天体,亮度达到14等。 天体信息每个天体(不包括星座)提供名称、命名、相关星座、赤道坐标(J2000)和视星等信息。 恒星额外信息对于恒星,还提供每年在赤经和赤纬上的漂移以及视差。 ## 安装使用步骤 1. 安装库使用Arduino IDE的库管理器安装本项目的库。 2. 解压数据库将db.zip解压到SD卡中。

    (源码)基于JSP和SQL Server的维修管理系统.zip

    # 基于JSP和SQL Server的维修管理系统 ## 项目简介 本项目是一个基于JSP和SQL Server的维修管理系统,旨在提供一个高效、便捷的维修管理解决方案。系统涵盖了从维修订单的创建、管理到配件的录入、更新等多个功能模块,适用于各类维修服务行业。 ## 项目的主要特性和功能 1. 用户管理 管理员和客户的注册与登录。 管理员信息的管理与更新。 客户信息的创建、查询与更新。 2. 维修订单管理 维修订单的创建、查询与更新。 维修回执单的创建与管理。 3. 配件管理 配件信息的录入与更新。 配件库存的管理与查询。 4. 评价与反馈 客户对维修服务的评价记录。 系统反馈信息的收集与管理。 5. 数据加密与安全 使用MD5加密算法对用户密码进行加密存储。 通过过滤器实现登录验证,确保系统安全。 ## 安装使用步骤

    devecostudio-windows-3.1.0.501.zip

    HUAWEI DevEco Studio,以下简称DevEco Studio)是基于IntelliJ IDEA Community开源版本打造,为运行在HarmonyOS和OpenHarmony系统上的应用和服务(以下简称应用/服务)提供一站式的开发平台。 作为一款开发工具,除了具有基本的代码开发、编译构建及调测等功能外,DevEco Studio还具有如下特点: - 高效智能代码编辑:支持ArkTS、JS、C/C++等语言的代码高亮、代码智能补齐、代码错误检查、代码自动跳转、代码格式化、代码查找等功能,提升代码编写效率。更多详细信息,请参考[编辑器使用技巧] - 低代码可视化开发:丰富的UI界面编辑能力,支持自由拖拽组件和可视化数据绑定,可快速预览效果

    《计算机视觉技术》实验报告-8.1提取车辆轮廓

    《计算机视觉技术》实验报告-8.1提取车辆轮廓

    springboot小徐影城管理系统(代码+数据库+LW)

    随着现在网络的快速发展,网上管理系统也逐渐快速发展起来,网上管理模式很快融入到了许多生活之中,随之就产生了“小徐影城管理系统”,这样就让小徐影城管理系统更加方便简单。 对于本小徐影城管理系统的设计来说,系统开发主要是采用java语言技术,在整个系统的设计中应用MySQL数据库来完成数据存储,具体根据小徐影城管理系统的现状来进行开发的,具体根据现实的需求来实现小徐影城管理系统网络化的管理,各类信息有序地进行存储,进入小徐影城管理系统页面之后,方可开始操作主控界面,主要功能包括管理员:首页、个人中心、用户管理、电影类型管理、放映厅管理、电影信息管理、购票统计管理、系统管理、订单管理,用户前台;首页、电影信息、电影资讯、个人中心、后台管理、在线客服等功能。 本论文主要讲述了小徐影城管理系统开发背景,该系统它主要是对需求分析和功能需求做了介绍,并且对系统做了详细的测试和总结。具体从业务流程、数据库设计和系统结构等多方面的问题。望能利用先进的计算机技术和网络技术来改变目前的小徐影城管理系统状况,提高管理效率。

    C++与Matlab实现SIFT特征提取算法+项目源码+文档说明+代码注释

    <项目介绍> - SIFT特征提取算法C++与Matlab实现 - 不懂运行,下载完可以私聊问,可远程教学 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------

    (1991-2024年)国家自然、社科基金部分名单(含部分标书)(最新!!!)

    数据介绍 数据名称:国家自然、社科基金部分名单 数据年份:1991-2024年 样本数量:10万+ 数据格式:PDF、excel

    卓晴-信号与系统课件.pdf

    卓晴

    as-bundled-clients

    as-bundled-clients

    学习时最后的资料包括面试等信息

    学习时最后的资料包括面试等信息

    (源码)基于Spring Boot和Ant Design的雨选课系统.zip

    # 基于Spring Boot和Ant Design的雨选课系统 ## 项目简介 雨选课系统是一个基于Spring Boot和Ant Design框架构建的前后端分离的选课系统。该系统实现了学生选课、成绩查询、教师成绩修改、课程编辑、课程新增等功能。登录信息使用Redis存储,并支持课程图片的上传功能。 ## 项目的主要特性和功能 1. 用户登录与权限管理 学生、教师和管理员分别有不同的登录权限。 登录信息使用Redis进行存储。 2. 课程管理 学生可以查看可选课程列表,并进行选课和退选操作。 教师可以查看自己教授的课程,并修改学生成绩。 管理员可以编辑和新增课程。 3. 成绩管理 学生可以查询自己的成绩。 教师可以修改学生的成绩。 4. 图片上传 支持课程图片的上传和展示。 5. 日志记录 系统记录请求和响应的日志信息,便于问题追踪和性能分析。

    数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)

    数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目),含有代码注释,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以作为课程设计期末大作业使用,该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅点餐系统源码+数据库+文档说明(高分项目)数据库期末作业基于Python+mysql的餐厅

    江苏镇江两座小桥的技术状况评估与维修建议

    内容概要:本文针对镇江市丹徒区辛丰镇的两座小型桥梁(大叶二组滚水坝桥与东联组桥)进行了详细的技术状况评定和现状调查。主要内容包括:桥梁的基本参数描述、桥梁各部分的具体检查结果以及存在的具体病害及其原因分析,同时依据《公路桥梁技术状况评定标准》对每座桥梁分别给出了综合评分和技术状况等级,并提出了具体的维护与修复建议。大叶二组滚水坝桥技术状况良好(2类),但需要解决桥面铺装裂缝和桥墩的混凝土剥落问题;而东联组桥则需重点关注桥面施工不完整及护栏损坏等问题。 适用人群:桥梁管理人员、维护工作人员及城市基础设施规划相关人员。 使用场景及目标:适用于中小跨度桥梁的常规检查与维修决策制定过程中,旨在帮助专业人士快速掌握桥梁的实际状态,确保桥梁安全可靠运行。 其他说明:文中附有多张实拍图片用于直观展示桥梁现状及存在问题。

    基于套接字API开发的高性能高稳定性跨平台MQTT客户端,可以在嵌入式设备FreeRTOS LiteOS RTThre.zip

    c语言

    【Unity 天气系统插件】Enviro 3 - Sky and Weather 高度可定制的云、雾和光照系统

    文件名:Enviro 3 - Sky and Weather v3.1.6b.unitypackage Enviro 3 - Sky and Weather 是一款功能强大的 Unity 插件,专门用于模拟逼真的天空、天气和环境效果。它适用于需要动态天气和日夜循环的游戏或应用,如开放世界 RPG、模拟类游戏等。Enviro 3 提供了大量的设置选项和自定义功能,帮助开发者在 Unity 中创建沉浸式的自然环境效果。 以下是 Enviro 3 - Sky and Weather 的一些关键特点和功能介绍: 1. 动态天气系统 天气变化:支持多种天气效果,如晴天、阴天、雨天、雪天、雾天、暴风雨等,所有天气效果可以动态切换,使游戏环境更加生动。 天气事件:允许开发者设置特定的天气事件,如风暴、雷电等,添加到游戏中的特殊场景或事件。 湿度与温度控制:可以根据天气变化动态控制湿度和温度,影响环境效果和玩家体验。 2. 日夜循环系统 动态时间系统:Enviro 3 支持实时的日夜循环,包括昼夜的过渡,太阳和月亮的运动轨迹。 光照调整:随着时间变化,Enviro 3 会自动调整环境光、

Global site tag (gtag.js) - Google Analytics