`

分析BetBrain数据的总结

    博客分类:
  • java
 
阅读更多

BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。

 

然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。

 

所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:

 

1. 重复的事情尽量用机器做,人工只处理逻辑的部分。

1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。

 

1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。

 

1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。

package com.hym.odds.util;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;

/**
 * FreeMarkerUtil
 * 
 * @project betbrain
 * @author huyumin
 * @date 2011-9-17
 */
public class FreeMarkerUtil {

    public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);


    public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
        FileOutputStream fos = null;
        OutputStreamWriter osw = null;
        Writer out = null;
        try {
            Configuration freemarker_cfg = new Configuration();
            freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
            freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
            freemarker_cfg.setDefaultEncoding("UTF-8");
            freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
            Template template = freemarker_cfg.getTemplate(vsource);
            template.setEncoding("UTF-8");
            //creatDirs(vpath + vtarget);
            File afile = new File(vpath + vtarget);
            fos = new FileOutputStream(afile);
            osw = new OutputStreamWriter(fos, "UTF-8");
            out = new BufferedWriter(osw);
            template.process(propMap, out);
            out.flush();
        } catch (TemplateException e) {
           e.printStackTrace();
            return false;
        } catch (IOException e) {
            e.printStackTrace();
            return false;
        } finally {
            if (out != null) {
                try {
                    out.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (osw != null) {
                try {
                    osw.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
        }
        return true;
    }


    public static boolean creatDirs(String path) {
        File aFile = new File(path);
        if (!aFile.exists()) {
            return aFile.mkdirs();
        } else {
            return true;
        }
    }

}

 

 

1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。

 

<?xml version="1.0" encoding="utf-8" ?>
<project default="main" basedir=".">

   <target name="main">
   	<!--
   	<echo>replace sql...</echo>
	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
        <replacefilter token="varchar(100)" value="varchar(255)"/>
		<replacefilter token="AUTO_INCREMENT=17 " value=""/>
		<replacefilter token="auto_increment" value=""/>
    </replace>
	-->
   	<!--
	<echo>replace mapper.xml...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8">
		<replacefilter token="(`" value="(`id`,`"/>
        <replacefilter token="values (" value="values (#{id},"/>
		
		<replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/>
		<replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/>
    </replace>
   	-->
   	<!--
   	<echo>replace ocationRelation...</echo>
   	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
   		<replacefilter token="ocationReIation" value="ocationRelation"/>
   	</replace>
   	-->
	<!--
	<echo>replace 标注...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
		<replacefilter token="private" value="@XStreamAsAttribute private"/>
    </replace>
   	-->
   	
   	<echo>replace ventAtion...</echo>
   	   	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
   	   		<replacefilter token="ventAtion" value="ventAction"/>
   	   	</replace>
   	</target>
</project>

 

2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。

 

3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。

package com.hym.odds.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;

public class XMLParseUtil {
	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
					xmlContent);
			T dto = null;
			if (m.find()) {
				String s = m.group();

				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());

				xs.processAnnotations(clazT);
				xs.alias("entities", clazT);
				xs.alias(clazD.getSimpleName(), clazD);
				xs.addImplicitCollection(clazT, "entities");
				dto = (T) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static UpdateDataDTO parseUpdateXML(String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
					.matcher(xmlContent);
			UpdateDataDTO dto = null;
			while (m.find()) {
				String s = m.group();
				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());
				xs.processAnnotations(UpdateDataDTO.class);
				xs.alias("UpdateData", UpdateDataDTO.class);

				dto = (UpdateDataDTO) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
}

 

 

 

4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。

 

@SuppressWarnings("rawtypes")
	public static void insertObjectToDB(List list, String className,
			ApplicationContext context) {
		if ("BettingOffer".equals(className)) {
			BettingOfferService bettingOfferService = (BettingOfferService) context
					.getBean("bettingOfferService");
			
//			for (Object object : list) {
//				bettingOfferService.insert((BettingOffer) object);
//			}
			
			
			int start = 0;
			int end = 499;
			int size = list.size();
			if (end >= size) {
				end = size;
			}
			
			while (end <= size && start < end) {
				List subList = list.subList(start, end);
				bettingOfferService.insertBatch(subList);
				System.out.println("batch insert start = " + start + ", end = " + end);
				start = start + 500;
				end = end + 500;
				if (end >= size) {
					end = size;
				}
			}
			
			//bettingOfferService.insertBatch(list);
		} else if ("BettingOfferStatus".equals(className)) {

 

分享到:
评论

相关推荐

    基于51单片机protues仿真的多功能万用表设计(仿真图、源代码、AD原理图、流程图)

    基于51单片机protues仿真的多功能万用表设计(仿真图、源代码、AD原理图、流程图) 数字多用表既可以测量电压,也可以测量电流、电阻,功能齐全,使用便捷。 本选题采用8位8路A/D转换器ADC0808和8051单片机设计一台数字多用表,能进行电压、电流和电阻的测量,测量结果通过LED数码管显示,通过安检进行测量功能转换。电压测量范围0~5V,测量误差约为±0.02V,电流测量范围为1~100mA,测量误差约为±0.5mA,电阻测量范围0~1000Ω,测量误差约为±2Ω。 1、通过按键设置测量模式; 2、电压采用直接测量方式;电流使用差压放大测量;电阻使用恒流源把阻值转换成电压。 预计难易程度:难度适中预计工作量大小:8周 1.熟练掌握单片机设计基本原理;熟悉8051单片机的工作原理; 2.熟练掌握Proteus软件的使用方法; 3.利用Proteus软件仿真实现数字多用表的测量功能。

    综合能源系统中阶梯式碳交易与供需灵活响应的优化调度模型及其实现

    内容概要:本文详细探讨了综合能源系统(IES)中引入阶梯式碳交易和供需灵活响应机制后的优化调度方法。首先介绍了碳排放计算的分段线性化处理,通过Python代码实现了燃气机组的碳排放曲线计算。接着讨论了电、热、气负荷之间的替代关系及其在不同场景下的应用,展示了如何利用替代矩阵进行负荷调整。此外,文章还介绍了有机朗肯循环(ORC)技术的应用,使热电联产机组能够灵活调整出力。最后,通过混合整数线性规划(MILP)构建了优化模型,并采用CPLEX求解器进行了求解,展示了如何通过分解时间段和预处理变量来提升求解效率。实验结果显示,该模型能使某园区的碳排量降低18%,运行成本节省12%。 适合人群:从事综合能源系统研究和开发的技术人员,以及对碳交易和能源优化感兴趣的学者和工程师。 使用场景及目标:适用于需要优化能源调度、降低成本并减少碳排放的工业和商业园区。目标是通过合理的碳交易机制和灵活的供需响应,实现经济效益和环境效益的最大化。 其他说明:文中提供了详细的代码片段,帮助读者理解和实现具体的优化算法。同时强调了在实际应用中需要注意的历史数据分析和设备物理限制等问题。

    【Delphi网络编程】解决IdHTTPServer TIdHTTP请求HTTP1.1 0 Unknown Response Code报错:指定返回状态及代码示例

    内容概要:本文主要探讨了在Delphi环境下使用IdHTTPServer时遇到的TIdHTTP请求报错HTTP1.1 0 Unknown Response Code的问题及其解决方案。错误的根本原因在于未指定返回状态码,解决方法是在IdHTTPServer1CommandGet事件处理程序中明确设置AResponseInfo.ResponseNo为200(或其他适当的HTTP状态码),并设置AResponseInfo.ResponseText。文中还提供了HTTP服务器端和客户端的具体代码实例,包括GET和POST请求的处理逻辑,以及如何正确配置字符集、内容类型和响应内容。此外,文章最后列出了常见的HTTP状态码及其在Delphi中使用IdHTTP控件时的处理方式,帮助开发者更好地理解和解决类似问题。; 适合人群:具有一定Delphi编程经验,特别是对网络通信和HTTP协议有一定了解的开发人员。; 使用场景及目标:①解决Delphi中IdHTTPServer组件使用过程中出现的HTTP1.1 0 Unknown Response Code错误;②掌握正确的HTTP状态码设置方法;③学习如何构建简单的HTTP服务器和客户端进行数据交互。; 阅读建议:重点理解IdHTTPServer的事件处理机制,特别是如何正确设置响应状态码和响应文本,同时参考提供的代码示例进行实际操作和调试。

    基于滑膜控制的ARS与DYC协同策略提升车辆在复杂路面的稳定性

    内容概要:本文详细介绍了利用滑膜控制和模糊推理系统实现后轮主动转向系统(ARS)与直接横摆力矩控制(DYC)的协同控制方法。通过多段代码实例展示了如何在不同路面条件下(如冰面与柏油路交界),通过上层模糊控制决策、滑膜控制快速响应以及下层精确的力矩分配,使车辆保持稳定的行驶状态。具体措施包括采用三层模糊推理系统进行实时姿态参数处理,使用滑膜控制实现非线性切换,以及构建三维查找表进行力矩分配。 适合人群:从事汽车工程、自动控制领域的研究人员和技术人员,尤其是关注车辆稳定性控制系统的专业人士。 使用场景及目标:适用于研究和开发能够应对复杂道路环境的高级驾驶辅助系统(ADAS)。主要目标是在极端天气或特殊路况下提高车辆的安全性和操控性能。 其他说明:文中提到的技术不仅限于理论探讨,还包括大量实车测试数据支持,证明了所提出的方法能够在实际应用中有效降低横摆角速度误差并抑制钟摆效应。此外,作者展望了未来结合轨迹跟踪和强化学习进一步优化控制策略的可能性。

    tesseract-langpack-ara-4.0.0-6.el8.x64-86.rpm.tar.gz

    1、文件说明: Centos8操作系统tesseract-langpack-ara-4.0.0-6.el8.rpm以及相关依赖,全打包为一个tar.gz压缩包 2、安装指令: #Step1、解压 tar -zxvf tesseract-langpack-ara-4.0.0-6.el8.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm

    员工离职通知单-模板.doc

    员工离职通知单-模板.doc

    高通量计算Ni-Cr-Al合金液固相线与相含量变化的Python实现及应用

    内容概要:本文详细介绍了如何利用Pandat工具进行镍基合金(Ni-Cr-Al系)的高通量计算,以确定液相线、固相线以及相含量的变化。通过编写Python脚本,实现了成分空间的大规模自动扫描,解决了传统手动计算耗时费力的问题。文中不仅提供了完整的代码示例,还涵盖了数据预处理、错误排查、结果验证等多个方面,并展示了如何使用Matplotlib、Seaborn等工具进行数据可视化的技巧。此外,作者强调了选择正确热力学数据库的重要性,并分享了一些实用的经验和优化建议。 适合人群:从事材料科学尤其是合金研究的专业人士,熟悉Python编程语言的研究人员。 使用场景及目标:适用于需要快速探索大量合金成分组合及其物性变化的研究项目,旨在提高科研效率,减少重复劳动,为后续实验提供理论依据和技术支持。 其他说明:文章中提到的技术手段可以推广应用于其他类型的合金系统或其他物理化学性质的高通量计算。

    模拟IC设计:解析国际知名大厂的SAR、Sigma-Delta和Pipeline ADC逆向工程

    内容概要:本文详细介绍了对国际知名大厂的三个逆向ADC电路(SAR ADC、Sigma-Delta ADC和Pipeline ADC)进行深入剖析。作者通过Cadence Virtuoso平台研究了这些电路的标准单元库设计,探讨了各个电路的关键技术和实现细节。对于24bit Sigma-Delta ADC,重点讨论了其调制器部分的时钟相位分配和噪声整形技术;对于16bit SAR ADC,则关注其比较器阵列的独特设计以及动态锁存比较器的应用;而对于14bit Pipeline ADC,着重分析了其级间放大器设计和电荷共享技术。此外,文中还提到了在将这些设计适配到自家工艺过程中遇到的问题及其解决方案,如电容寄生效应、时序约束调整、运放结构优化等。 适合人群:从事模拟集成电路设计的专业人士,尤其是对ADC设计感兴趣的工程师和技术研究人员。 使用场景及目标:帮助读者深入了解高精度ADC的工作原理和设计技巧,掌握逆向工程技术在实际项目中的应用,提高对不同工艺节点下ADC设计的理解和适应能力。 其他说明:文中提供了大量具体的代码片段和仿真命令,便于读者理解和实践。同时,作者分享了许多宝贵的经验教训,强调了在逆向工程中需要注意的技术细节和潜在风险。

    新能源汽车车载充电机PWM整流器仿真模型及双闭环PFC控制研究

    内容概要:本文详细介绍了基于PWM整流器的3.3kW新能源汽车车载充电机仿真模型的设计与实现。前级采用双闭环PFC控制,确保直流母线电压稳定并使网侧电流呈正弦波形,后级则使用移相全桥开环控制来调节输出电压。文中探讨了电压环和电流环的PI参数整定方法,以及如何通过坐标变换提高电流跟踪精度。此外,还讨论了仿真过程中遇到的问题及其解决方案,如不同仿真软件之间的步长同步问题和滤波器的应用。最终,仿真结果显示整机效率可达92%-94.7%。 适合人群:从事新能源汽车充电技术研发的工程师和技术爱好者。 使用场景及目标:适用于需要深入了解车载充电机电能转换机制的研究人员,旨在优化充电机性能,提升电能转换效率。 其他说明:文中提供了具体的MATLAB和PLECS代码片段,帮助读者更好地理解和复现实验结果。同时强调了仿真过程中需要注意的关键技术和常见陷阱。

    tdb-tools-1.4.3-1.el8.x64-86.rpm.tar.gz

    1、文件说明: Centos8操作系统tdb-tools-1.4.3-1.el8.rpm以及相关依赖,全打包为一个tar.gz压缩包 2、安装指令: #Step1、解压 tar -zxvf tdb-tools-1.4.3-1.el8.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm

    电力系统中风光水火储多能系统分层优化调度策略研究

    内容概要:本文探讨了风光水火储多能系统的分层优化调度策略,旨在提高系统灵活性和经济效益。文章详细介绍了上层优化(主要针对储能系统)和下层优化(主要针对火电机组)的具体实现方法及其相互协作机制。上层优化通过最小化净负荷波动并考虑储能收益,确保电网稳定性;下层优化则关注火电机组的成本最小化以及应对可再生能源的不确定性。文中还讨论了交替方向乘子法(ADMM)用于协调上下层优化的过程,并展示了基于改进IEEE30节点系统的实验结果。 适合人群:从事电力系统优化、智能电网研究的专业人士和技术爱好者。 使用场景及目标:适用于希望深入了解多能系统优化调度策略的研究人员,尤其是那些致力于提高电力系统灵活性和经济效益的人群。目标是掌握如何利用数学模型和算法解决实际工程问题。 其他说明:文章强调了在构建优化模型时不仅要考虑理论上的最优解,还要兼顾设备的实际物理特性。此外,作者提醒读者在设置模型参数时应注意避免不合理配置导致设备损坏等问题。

    电子硬件课程设计项目资源

    电子硬件课程设计项目资源

    数学建模_Matlab_SPSS_教程分享_学习用途_1742838826.zip

    线性代数

    按需激励――荣誉点激励法.doc

    按需激励――荣誉点激励法

    Delphi 12.3控件之DBTreed7.rar

    Delphi 12.3控件之DBTreed7.rar

    2025年节假日工作日.xls文件

    标注工作日,非工作日,调休,可以直接使用

    Delphi 12.3控件之android-hls-slice-master.zip

    Delphi 12.3控件之android_hls_slice-master.zip

    delphi 12.3 QFLazarus带交叉编译.zip

    delphi 12.3 QFLazarus带交叉编译.zip

    离职面谈的目的及技巧.doc

    离职面谈的目的及技巧.doc

    间断伽辽金方法在含裂缝非均质地层多相流模拟中的应用及优化

    内容概要:本文详细介绍了间断伽辽金(DG)方法在处理含裂缝非均质地层多相流模拟中的应用及其优势。首先解释了传统有限元方法在处理此类问题时的局限性,如数值震荡和耗散问题。接着阐述了DG方法的核心特点,即允许解函数在单元边界处不连续,从而更好地处理材料属性突变的问题。文中还提供了具体的代码实现,展示了DG方法在处理裂缝网络、时间离散、非均质渗透率场等方面的技术细节。此外,讨论了DG方法在实际工程中的应用案例,如页岩气藏和碳酸盐岩储层的模拟,并提出了混合格式和其他优化策略来提高计算效率。 适合人群:从事石油工程、地质力学、计算流体力学等领域研究的专业人士和技术人员。 使用场景及目标:适用于需要精确模拟复杂地质条件下多相流行为的研究和工程项目,旨在提高模拟精度和计算效率,解决传统方法难以克服的数值不稳定问题。 其他说明:尽管DG方法具有显著优势,但也存在计算成本高的缺点。因此,文中提出了一些优化策略,如混合格式和自适应基函数选择,以平衡精度和效率。

Global site tag (gtag.js) - Google Analytics