- 浏览: 562604 次
- 性别:
- 来自: 安徽
-
文章分类
最新评论
-
baynjh:
jp.ne.so_net.ga2.no_ji.jcom.JCo ...
java应用jcom将word转pdf -
zgw06629:
你好,请问你都做了哪些修改呢?是在客户端还是服务端?
http上传文件深度解析-高性能http传输 -
eidolon:
翻译有误。 l ?:意思是操作符左边的符号( ...
BNF 和EBNF的含义与用法(感谢译者:Sunnybill) -
huoyj:
请教一个问题,是不是HTTP请求里面没有包含上传文件在客户端的 ...
http上传文件深度解析-高性能http传输 -
a49688448:
“认清” 我还以为google怎么你了
最近终于认清了google
枫-rickya(25620539) 16:16:21
系统是纯C写的,效率是很高的。。。结果跑了4小时没反应。。。气死我了。。
枫-rickya(25620539) 16:16:33
后来我帮他改后,20分钟就跑完的程序。。。汗。。。
[ARC]懂得放弃(55309686) 16:16:50
rickya 你考虑到数据采集时,从sybase到其他的数据库,java代码怎么写么?
枫-rickya(25620539) 16:17:15
我们没用sybase
[ARC]懂得放弃(55309686) 16:17:19
哦,是不是他没有释放资源,把内存搞光了
枫-rickya(25620539) 16:17:32
java我也不太懂。。。我就用的C和C++。。。其它都不太会呢。
枫-rickya(25620539) 16:17:46
那到不是。。。是取数都不走索引。
枫-rickya(25620539) 16:17:57
最后我问他为什么不走索引。他说索引没什么用。。。
[ARC]懂得放弃(55309686) 16:17:52
[ARC]懂得放弃(55309686) 16:18:02
金融数据量太大了
枫-rickya(25620539) 16:18:16
气得我当时直吐血。。。
[ARC]懂得放弃(55309686) 16:18:10
一个select 估计要很长时间
枫-rickya(25620539) 16:18:41
嗯。几千万条数据,不走索引不是找死是干什么?
[ARC]懂得放弃(55309686) 16:18:36
枫-rickya(25620539) 16:18:49
还研究生。。。
[ARC]懂得放弃(55309686) 16:18:45
他们用什么库
[ARC]懂得放弃(55309686) 16:18:52
你采集放到什么库
枫-rickya(25620539) 16:19:18
informix
[ARC]懂得放弃(55309686) 16:19:16
哦,金融的数据是怕人
枫-rickya(25620539) 16:19:34
采集到的就在informix里,只是另一个库里
[ARC]懂得放弃(55309686) 16:19:31
哦,那还好
[ARC]懂得放弃(55309686) 16:19:44
假如采集到sybase库,那么就存在类型转换的问题
枫-rickya(25620539) 16:20:07
sybase我们没怎么用,主要是人行在用。
枫-rickya(25620539) 16:20:12
银联用的DB2
[ARC]懂得放弃(55309686) 16:20:18
银联也是从人行出去的吧
lant℡sky(63277863) 16:20:37
枫-rickya 简单介绍一下 你是怎么处理的 他们是怎么处理的?
lant℡sky(63277863) 16:20:48
后来的 没跟上
枫-rickya(25620539) 16:21:05
嗯。以前叫什么金卡工程,就是那些人出去的。
[ARC]懂得放弃(55309686) 16:21:14
也就是银行的行业协会组织
枫-rickya(25620539) 16:21:35
那很简单嘛,查询走索引,然后程序写成一个多线程,进行并发就是了。。。
[ARC]懂得放弃(55309686) 16:21:39
跨行支付,以及多终端支付
枫-rickya(25620539) 16:22:13
银行的行业协组织主要是几家大行了。
千宠孤狼(6485785) 16:22:20
100条20分钟?
枫-rickya(25620539) 16:22:25
。。。。
[ARC]懂得放弃(55309686) 16:22:19
线程怎么控制那个线程采集前面的10万条 ,别的线程采集后面的10万条
枫-rickya(25620539) 16:22:35
8000万条数据。
枫-rickya(25620539) 16:22:47
把数据进行分组。
[ARC]懂得放弃(55309686) 16:22:44
咋分组呢?
枫-rickya(25620539) 16:22:58
比如说吧,按机构来进行分组。
[ARC]懂得放弃(55309686) 16:22:55
这样啊
[ARC]懂得放弃(55309686) 16:22:59
有道理
枫-rickya(25620539) 16:23:16
每个线程处理一个段机构的数据
lant℡sky(63277863) 16:23:29
哦
枫-rickya(25620539) 16:23:37
程序写得只要灵活点,就可能自动分组。
[ARC]懂得放弃(55309686) 16:23:43
那8000万条,放到别的库里面做什么,这么多条数据,不如直接数据恢复把不要的数据在删除了
枫-rickya(25620539) 16:24:30
不是放到别的库,是从8000万条数据里找到适合条件r
[ARC]懂得放弃(55309686) 16:24:27
哦,这样啊
[ARC]懂得放弃(55309686) 16:24:30
呵呵,辛苦了
枫-rickya(25620539) 16:24:49
8000万条数据是一个交易明细嘛。
[ARC]懂得放弃(55309686) 16:24:41
8000万,你多少条做一个事务提交
浪慢秦怀学架构(282105028) 16:25:05
银行的同学们.怎样把信息收集到一起呢?
浪慢秦怀学架构(282105028) 16:25:12
所有的银行卡信息.
枫-rickya(25620539) 16:25:20
以线程提交。
枫-rickya(25620539) 16:25:25
一个线程跑完就提交。
[ARC]懂得放弃(55309686) 16:25:32
晕那其中一个线程是500万条,你不提交事务么
枫-rickya(25620539) 16:26:19
并不是500万条,是从500条里找到符合条件的,然后生成数据放到另一个库中。
[ARC]懂得放弃(55309686) 16:26:40
哦,这样啊,假如你的程序中端了咋办
枫-rickya(25620539) 16:27:20
程序中断会回滚的,但完成的线程就已经提交了。
枫-rickya(25620539) 16:27:36
下次处理的时候,对未完成的数据再进行重新分组,并处理。
lant℡sky(63277863) 16:27:56
你怎么知道那些数据处理完了
枫-rickya(25620539) 16:28:11
线程处理完后对于分组表要进行处理的。
枫-rickya(25620539) 16:28:22
这样的话,可以通过分组表知道哪些机构成功了。
[ARC]懂得放弃(55309686) 16:28:18
分组表就是一个工作分配 监控用的
枫-rickya(25620539) 16:28:39
嗯。
lant℡sky(63277863) 16:28:52
[ARC]懂得放弃(55309686) 16:28:44
但是我怀疑 你的线程一次计算的数据量太大,会把内存使用光
枫-rickya(25620539) 16:29:02
分组后,有几个好处
枫-rickya(25620539) 16:29:09
不会。
[ARC]懂得放弃(55309686) 16:29:15
哦,假如一个线程找到符合条件的记录有200万条,你咋办?
[ARC]懂得放弃(55309686) 16:29:20
做一次事务提交么
枫-rickya(25620539) 16:29:42
用到的不是内存,而是当时分给数据库的空间。
[ARC]懂得放弃(55309686) 16:29:30
还是没找到符合的一条就写入一次
[ARC]懂得放弃(55309686) 16:30:03
你从一个库 到另一个库,不需要用内存转下么
枫-rickya(25620539) 16:30:19
这个可以具体来看,如果需要一条提交就提交,如果是不用,就可以到线程结束。
枫-rickya(25620539) 16:30:41
用一个大事务来控制。
[ARC]懂得放弃(55309686) 16:30:43
就是每个线程是一个大事务,是吧
枫-rickya(25620539) 16:31:05
这个事务可以看你怎么分了。
枫-rickya(25620539) 16:31:22
如果觉得一条数据处理完就可以提交了,那么事务就是以数据来分。
[ARC]懂得放弃(55309686) 16:31:31
一条就提交一次,那多慢呀
枫-rickya(25620539) 16:31:46
如果觉得得整个批量都成功才叫成功,那么就到整个线程结束再提交。
枫-rickya(25620539) 16:32:01
嗯。所以一般的,我很少用一条一提交的方法。
枫-rickya(25620539) 16:32:18
本身就已经对数据进行分组了,所以我一般做法都是一个线程一次提交。
[ARC]懂得放弃(55309686) 16:32:27
那一个线程有200万条呢
[ARC]懂得放弃(55309686) 16:32:35
就一次提交200万条么
志文(294055695) 16:33:13
可以1000条一次啊
[ARC]懂得放弃(55309686) 16:33:15
假如你分了10个线程,9个结束了,还有一个中断了,你如何处理失败的数据
志文(294055695) 16:33:28
用缓冲
枫-rickya(25620539) 16:33:38
嗯。这就得事先对数据量做估算了。
枫-rickya(25620539) 16:33:46
失败的回滚。
枫-rickya(25620539) 16:33:51
成功的就成功了。
枫-rickya(25620539) 16:34:03
然后对失败的再进行处理。
[ARC]懂得放弃(55309686) 16:34:06
一个线程中有200万条 ,你分了200次,假如成功了199次,还有一次没有成功,你咋办
枫-rickya(25620539) 16:34:34
那就回滚咯。
[ARC]懂得放弃(55309686) 16:34:36
但是前面的199次已经commit 了
枫-rickya(25620539) 16:34:52
不过一般的,我不会把这么大量的数据分到一个线程的。
[ARC]懂得放弃(55309686) 16:34:43
在另一个库里面了
枫-rickya(25620539) 16:35:18
那没关系的,对于最后不成功这次下次继续做处理。
[ARC]懂得放弃(55309686) 16:35:08
计算没有这么大的数据量,假如一个线程中有多次提交,有一此失败了咋办
枫-rickya(25620539) 16:35:51
那一次的不成功也没关系啊,对不成功数据做二次处理就是了。
[ARC]懂得放弃(55309686) 16:35:59
恩,你怎么记录断点信息呢
枫-rickya(25620539) 16:36:18
失败那次记录下来,然后继续往下,把先能处理先处理。
枫-rickya(25620539) 16:36:25
失败的是可以进行回滚掉的。
[ARC]懂得放弃(55309686) 16:36:17
是的
枫-rickya(25620539) 16:36:48
所以这样子下来以后,成功的已经拿走,不成功的,那就看是什么原因造成的。
[ARC]懂得放弃(55309686) 16:36:45
但是回滚的部分要能标识出来,不然下次怎么找到那批数据
枫-rickya(25620539) 16:37:12
嗯。当然会标识出来的。
[ARC]懂得放弃(55309686) 16:37:08
怎么标识呢?
枫-rickya(25620539) 16:37:34
在每次数据处理的时候,都有一张表来记录不成功数据的。
[ARC]懂得放弃(55309686) 16:37:24
区块_最后200条?
志文(294055695) 16:37:36
增加字段
枫-rickya(25620539) 16:37:53
只要记录下数据所在表的rowid就足够了。
[ARC]懂得放弃(55309686) 16:37:45
是数据体么,还是数据体的描述
[ARC]懂得放弃(55309686) 16:38:01
rowid是数据库的属性吧
枫-rickya(25620539) 16:38:19
嗯。
[ARC]懂得放弃(55309686) 16:38:11
是表的属性是吧
枫-rickya(25620539) 16:38:28
是的。
枫-rickya(25620539) 16:38:44
只要未对表进行重排列的时候,rowid就不变的。
[ARC]懂得放弃(55309686) 16:38:35
你C写的有界面么
[ARC]懂得放弃(55309686) 16:38:43
恩
枫-rickya(25620539) 16:38:59
C写的后台。
[ARC]懂得放弃(55309686) 16:38:52
一般给你采的数据 都是历史数据
[ARC]懂得放弃(55309686) 16:39:04
进度能展示么
枫-rickya(25620539) 16:39:24
这种大数据的采集一般都是历史数据。
[ARC]懂得放弃(55309686) 16:39:15
10%..之类的
[ARC]懂得放弃(55309686) 16:39:18
恩
枫-rickya(25620539) 16:39:31
不展示。
[ARC]懂得放弃(55309686) 16:39:33
哦,那就搞不清楚到底死机了没有
枫-rickya(25620539) 16:40:05
不可能会死机的,呵呵。。。主机性能不用考虑。
[ARC]懂得放弃(55309686) 16:40:05
恩,但是就是不知道会有多长时间
枫-rickya(25620539) 16:40:20
因为主机性能处理这个数据足够的。
枫-rickya(25620539) 16:40:29
嗯。多长时间这个确实不知道。
枫-rickya(25620539) 16:40:40
要做也是可以的。
[ARC]懂得放弃(55309686) 16:40:31
像你那个同事, 搞了几个小时还没有处理完,那人家在那里等,不得急死啊
志文(294055695) 16:40:44
每隔一分钟作记号
枫-rickya(25620539) 16:40:47
只要看分组表里完成进度就知道了。
枫-rickya(25620539) 16:41:06
分组表完成的线程情况基本知道进度。
[ARC]懂得放弃(55309686) 16:41:00
恩,要是把进度展示出来就行了,并不需要计算到底要几分钟
[ARC]懂得放弃(55309686) 16:41:19
但是最好能看到进度,特别是大数据的处理
枫-rickya(25620539) 16:41:37
只是懒得去做个东西再去展现进度了。
枫-rickya(25620539) 16:41:44
不用,一般的,看日志就知道了。
[ARC]懂得放弃(55309686) 16:41:43
但是日志是事后的
枫-rickya(25620539) 16:41:56
日志只要不断在刷新就知道进度了。
枫-rickya(25620539) 16:42:15
处理进度可以根据日志反应出来的。
枫-rickya(25620539) 16:42:21
有时实处理的日志。
[ARC]懂得放弃(55309686) 16:42:10
[ARC]懂得放弃(55309686) 16:42:19
informix的么
枫-rickya(25620539) 16:42:35
不是。。。
枫-rickya(25620539) 16:42:52
在写程序的时候适当的地方写个处理情况说明就知道了。
枫-rickya(25620539) 16:43:06
比如说,几号,几号线程已处理完什么之类的。
[ARC]懂得放弃(55309686) 16:42:57
呵呵,恩,但是要用个线程单独来控制显示
发表评论
-
java获取项目路径
2010-12-16 13:40 1243在jsp和class文件中调用的相对路径不同。 在jsp里,根 ... -
CSS控制DIV圆角
2010-12-09 15:51 1933<!DOCTYPE HTML PUBLIC " ... -
强大的web打印功能
2010-08-24 11:17 11611.<html> 2.<head> ... -
一个java写的托盘练习
2010-08-14 15:48 1023package minsize;import javax.sw ... -
Java的SystemTray类的使用方法
2010-08-14 15:38 3372Java的SystemTray类的使用方法 JDK1.6版增 ... -
Hibernate中发生"Session is closed" 的另一种可能!
2010-07-17 23:39 1763Hibernate中发生"Session ... -
求园柱体的表面积和体积
2010-06-13 11:50 32851.先创建一个Point类,然后定义Trianglele类。在 ... -
写一个Point类,计算两个Point实例之间的距离;写一个判断点是否在圆内的方法。
2010-06-13 11:47 8028写一个Point类,计算 ... -
打印分页代码
2009-10-27 15:27 1287<!-- define some variables u ... -
非常好的打印预览代码
2009-10-27 15:24 1973<!DOCTYPE html PUBLIC &quo ... -
http上传文件深度解析-高性能http传输
2009-10-24 16:59 11391http上传文件深度解析-高性能http传输 2008-12 ... -
用java获得MAC地址
2009-10-14 15:55 2820package com.etong.bms; impor ... -
使用java2word向已经建好的表格里插入数据
2009-05-18 13:41 2799上一篇讲如何NEW一个已经填充好数据的表格出来,这篇我介绍 ... -
使用java2word向word文档里插入文本、表格、图片
2009-05-18 13:41 5951import java.util.ArrayList; ... -
JSP request对象属性列表
2009-05-15 15:05 3041<% out.println("Protoc ... -
LDAP 集成应用实例
2009-05-15 13:58 9354我们部门有一个系统是专门用来记录大家的请假和加班的.这个系统有 ... -
IBM Portal与单点登录、集成企业级应用
2009-05-15 11:19 3528IBM Portal与单点登录、集 ... -
WAP 服务器设置
2009-04-11 15:53 1760WAP 服务器设置 二十一世纪是信息的世纪,以IP技 ... -
本地图片预览
2009-04-01 17:11 1207<?xml version="1.0" ... -
图片预装载技术
2009-04-01 17:08 1253<html> <body> < ...
相关推荐
1. "0TB~XXBDT_XS.jpg"看起来是一个图像文件,可能是数据采集过程中抓取到的网页截图,或者是用于演示或记录的图片。 2. "jiesuan.php"可能是一个PHP脚本,PHP是一种常用的服务器端编程语言,这个名字可能暗示着这个...
网络游戏中的多网络数据采集器是一种重要的工具,它用于收集、分析和处理游戏中产生的大量网络数据。在网络游戏领域,数据采集是优化游戏体验、监控玩家行为、进行数据分析和维护游戏平衡的关键环节。以下是对这一...
在网络游戏环境中,用户之间的互动会产生大量的社交数据,包括但不限于游戏内的聊天记录、组队行为、交易记录、好友关系、排行榜等。这些数据通常以非结构化或半结构化的形式存在,因此需要使用特定的数据爬虫技术和...
在游戏中,每一项玩家行为,如角色移动、攻击、交易、聊天等,都会产生大量数据。这些数据对于游戏开发者来说是宝贵的资源,可以帮助他们了解玩家习惯,发现潜在问题,并进行游戏平衡调整。网络采集系统通过实时监控...
1. 数据采集与清洗:数据采集是 ChatGPT 技术的数据预处理流程的第一步,需要大量的对话数据,可以从公开的对话语料库、聊天记录等渠道获取。在数据采集过程中,需要注意保护用户的隐私,确保不泄漏敏感信息。采集到...
以一个简单的例子来说明数据采集方法的多样性。在评价一个人的收入时,可以有多种不同的方法来收集数据,比如查询招聘网站、询问猎头朋友或直接查看工资单和股票账户等。这些方法各有优缺点,但通过综合运用可以更...
ChatGPT技术作为人工智能领域的一项关键技术,其核心在于利用大量数据进行深度学习,进而实现高质量的人机对话。本文档详细介绍了如何为ChatGPT技术准备训练数据集的方法,包括数据采集、数据清洗与预处理、数据标注...
通过研究这些数据库资源,我们可以了解到如何有效地存储、管理和检索大量用户数据。 QQDB_log.ldf和QQDB.mdf是SQL Server数据库的两个关键文件。.mdf文件代表主要数据文件,其中包含了数据库的所有用户数据和系统...
数据挖掘技术通过处理和分析大量数据,可以帮助企业提炼有用信息,进行有效预测和决策支持。本文将详细介绍数据挖掘的常用技术方法,并探讨其在工商管理中的实践研究。 首先,数据挖掘的介绍强调了原始数据和二手...
首先,在对话数据采集阶段,我们需要从各种渠道中收集大量的对话数据作为训练集。这些对话可以来自于聊天记录、论坛帖子、社交媒体等。然而,由于数据的来源和质量参差不齐,我们需要对数据进行筛选和处理。 预处理...
#### 二、基于在线聊天记录的数据采集 在线聊天记录是最直接的人类对话来源之一,可以为ChatGPT提供大规模的真实对话数据。这类数据通常来源于社交媒体平台、即时通讯软件、在线社区等。通过爬虫技术,可以自动抓取...
在数据准备方面,我们可以利用从在线论坛、社交媒体、聊天记录等渠道收集到的大量文本数据。这些数据来源广泛,无论是书面语还是口语表达,都能帮助模型更好地学习到语言的变化和多样性。 数据清洗是一个繁琐而复杂...
在网络游戏中,这可以应用于玩家行为分析、游戏状态同步、聊天记录处理等多个方面。例如,通过对玩家行为数据的并行处理,可以快速获取玩家偏好,为游戏优化和个性化推荐提供支持。 二、分布式系统 分布式系统是由...
常见的音频编码格式有G.711、AAC、OPUS等,这些编码技术可以高效地压缩音频数据,减少传输时的数据量。 2. **实时传输协议(RTP)**:RTP是为实时数据通信设计的网络协议,用于传输音频和视频流。在语音聊天系统中...
在本项目中,它可能被用来创建服务器端的聊天室服务,处理用户的连接请求、接收和发送语音数据,同时维护用户状态和聊天记录等信息。ASP.NET提供了丰富的控件和模型,如ASP.NET MVC和Web Forms,便于开发者快速构建...
例如,Socket的BeginSend和EndSend方法可以异步发送数据,BeginReceive和EndReceive方法可以异步接收数据,这在处理大量并发连接时能显著提升性能。 项目中的解决方案文件(.sln)包含了项目的配置信息,Solution ...
学习和使用这个源码,不仅可以提升PHP编程技能,还能深入理解视频网站的构建过程,了解数据采集、接口设计、移动适配等多个方面,对于希望从事Web开发的人来说是一次宝贵的实践机会。但需要注意,任何商业用途的使用...
- **预约咨询统计**:软件无法自动判断哪些咨询导致了预约,只能根据聊天记录进行大致分类。 - **到院咨询统计**:同样,软件无法判断哪些咨询最终导致患者到医院就诊。 - **关键词与营销页面分析**:无法追踪咨询...
5. **滚动截取聊天窗口**:在QQ或其他聊天应用中,用户可以滚动截取整个聊天记录,无论是为了保存重要对话还是进行证据留存,都非常实用。 结合标签“滚动截图”、“文库采集”和“网页截图采集”,我们可以推断这...
在训练ChatGPT模型时,需要收集大量多样化的对话数据,包括来自社交媒体、聊天记录和论坛等不同来源的对话。数据多样性的目标是覆盖多种话题、语言风格和对话场景,以使模型具有广泛的应用能力。同时,数据质量同样...