奶酪(524300045) 16:33:15
语言都是一样,思想最重要
andy(40508730) 16:33:27
伟大的小白(439297317) 16:31:16
各种语言都用 不是说 让做刷马桶的去烧饭
你刷马桶要用马桶刷
你烧饭要用烧饭的
andy(40508730) 16:33:36
主要思想是完成工作
0.0(237667802) 16:33:38
思想这东西,太抽象了
天上虹(175535850) 16:33:42
linux下c/c++推荐基本书吧,
罗成(409661706) 16:33:45
语言太杂了 真不好···奔波于语法的学习
伟大的小白(439297317) 16:34:06
思想.. 对你说赫赫 你对c来个闭包思想看看
低调(313316432) 16:34:07
语法还真不是重点
西电-hadoop(715691357) 16:34:12
恩 最关键的 你得能上网 能google 能百度 能csdn 能加hadoop技术交流群
伟大的小白(439297317) 16:34:20
你对 java来个指针思想看看
天上虹(175535850) 16:34:30
更重要的是没事了能上上防御塔
伟大的小白(439297317) 16:34:29
思想这东西 你忽悠忽悠刚毕业的还差不多
低调(313316432) 16:34:31
对各种库啊 api啊什么的 记得多
天上虹(175535850) 16:34:43
大家看人人小站没 摧毁了一座防御塔
0.0(237667802) 16:34:58
别再谈思想了,谈不起
罗成(409661706) 16:35:05
最合适就是最好的吧··
0.0(237667802) 16:35:49
最多谈谈架构
西电-hadoop(715691357) 16:36:24
有个问题放在那里 你就赶紧想个法子解决了 就行了
天上虹(175535850) 16:36:24
没有哪种思想能适合每一个公司的业务的
罗成(409661706) 16:36:47
老板就别想给1份的工资就让人做2份工作的事···招的是JAVA程序员 就别逼人家搞C的项目···业余时间帮你用C做个开源消息队列还行
天上虹(175535850) 16:37:34
我以前说想去搞搞c的。。。没想到真想起我了。。。
0.0(237667802) 16:37:50
那就搞呗
0.0(237667802) 16:38:07
把自己卖给了老板,不搞,人家不给你饭吃
天上虹(175535850) 16:38:17
加薪搞不搞c
罗成(409661706) 16:39:01
中国就是项目搞得太急躁··没时间重构···
不能精雕细琢
0.0(237667802) 16:39:45
没有品质优良的项目,哪来重构的基础
西电-hadoop(715691357) 16:40:04
都啥时代了 谁还有心思搞绣花针 能搞出来 卖出去 能用就行了 反正用的人也不知道咋回事
西电-hadoop(715691357) 16:40:08
哈哈
天上虹(175535850) 16:40:18
话说中国干什么事情都说要”又快又好“,上至天朝下至百姓
伟大的小白(439297317) 16:40:25
重构了你的代码 谁来重构我的钱包
0.0(237667802) 16:40:36
不必抱怨那么多
海风(78441391) 16:46:51
问大家一个问题,有没有碰到
只能Map,不能Reduce的情况
Reduce=0% 卡这了
nknk(290377570) 16:48:23
你用combine了吗?
海风(78441391) 16:53:25
在hive命令行运行的
小Q(178960751) 18:14:29
连鸿蒙国际这样的烂东西都能上人民日报.汗!
小Q(178960751) 18:15:07
kwee(836232886) 18:15:34
娱乐新闻嘛日期:2011/11/24
lykke.lm(715356603) 9:15:11
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/suse/tik/segments/20111123175211/content/part-00003/data for DFSClient_attempt_201111220922_0412_r_000003_1 on client 192.168.1.15 because current leaseholder is trying to recreate file.
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1045)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:981)
at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:377)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:508)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)
请问谁遇到过这种错误
lykke.lm(715356603) 9:15:24
运行几个小时之后就报这个错误
332106123(332106123) 9:16:47
好像是权限问题
lykke.lm(715356603) 9:16:53
不是
lykke.lm(715356603) 9:17:02
要是权限问题的话 任务根本运行不起来
lykke.lm(715356603) 9:17:09
我这个是运行了 10几个小时的时候报的
开心延年-alipay<myn@163.com> 10:13:41
目标:
让单机版的lucene能够支持十亿级别索引的查询
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处
下表为对100W~10亿条md5值进行创建索引以及查询的情况
读的时间为查询10W条md5的时间,单位毫秒
写为创建完整索引的时间,单位为毫秒。
lykke.lm(715356603) 10:15:34
lucene 搜索 85.2 g的索引文件要多久
lykke.lm(715356603) 10:15:54
5 秒多?
xiaolong(312210901) 10:16:28
什么需求需要在单板机上做索引呢
(来自手机QQ: http://mobile.qq.com/v/ )
风车车(54343885) 10:16:38
这个好高级呀
开心延年-alipay<myn@163.com> 10:16:45
50毫秒
lykke.lm(715356603) 10:16:50
不可能吧
开心延年-alipay<myn@163.com> 10:16:57
修改了索引啦
lykke.lm(715356603) 10:17:01
85,2 g 50毫秒
lykke.lm(715356603) 10:17:12
你怎么修改的呢》
bruce_yang(782506462) 10:17:13
此代码只应天上有,人间哪得几回看
lykke.lm(715356603) 10:17:14
能说说么
开心延年-alipay<myn@163.com> 10:17:17
二分法查找 性能还是不错的
lykke.lm(715356603) 10:17:30
和查找没关系 难道你不用lucene 检索么?》
风车车(54343885) 10:17:38
不是把所有的索引都加载到内存中么
开心延年-alipay<myn@163.com> 10:17:46
lucene的索引结构改了
开心延年-alipay<myn@163.com> 10:18:00
全加到内存了 肯定达不到亿的级别
开心延年-alipay<myn@163.com> 10:26:05
只改动了这几个类
lykke.lm(715356603) 10:26:25
发源码吧 开心
伟大的小白(439297317) 10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754) 10:26:41
是呀,开心
云 - 华(46249327) 10:26:50
单机 lucene能够支持十亿级别索引的查询
lykke.lm(715356603) 10:27:05
我也觉得不可能
开心延年-alipay<myn@163.com> 10:27:18
代码给你 自己测试下就知道啦
bruce_yang(782506462) 10:27:23
改了建立索引的 java代码?
lykke.lm(715356603) 10:27:23
我现在的索引大约10个g 单机 根本不行
伟大的小白(439297317) 10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462) 10:27:42
10G 多少条数据啊
bruce_yang(782506462) 10:27:44
lm
伟大的小白(439297317) 10:27:46
那多坑跌阿
bruce_yang(782506462) 10:27:47
luykke
lykke.lm(715356603) 10:27:55
我那个 是网页
翟光亚(304428768) 10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768) 10:28:09
感觉没有必要这样的
伟大的小白(439297317) 10:28:30
我一直没搞明白
伟大的小白(439297317) 10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603) 10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储
lykke.lm(715356603) 10:28:59
用MulitSearch
伟大的小白(439297317) 10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317) 10:29:08
ss
开心延年-alipay<myn@163.com> 10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com> 10:29:14
文件二分法啊
开心延年-alipay<myn@163.com> 10:29:18
文件是定长的
lykke.lm(715356603) 10:29:21
715356603@qq,com
lykke.lm(715356603) 10:29:33
g给我发啊 哥们
kwee(836232886) 10:29:52
ikweesung@gmail.com
越测越开心(19730953) 10:29:53
还有panluhai@gmail.com 支持下阿里兄弟
kelo_北京(13581754) 10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123) 10:30:20
332106123@qq.com
bruce_yang(782506462) 10:30:46
kelo 你眼睛分布式?
在路上(386728737) 10:30:47
同求,386728737@qq.com,
bruce_yang(782506462) 10:30:48
研究
bruce_yang(782506462) 10:30:52
单机 ?
bruce_yang(782506462) 10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com> 10:31:01
我业余时间搞着玩的哈 就修改了几天
bruce_yang(782506462) 10:31:01
知道sensei没
bruce_yang(782506462) 10:31:16
正需要做搜索呢
bruce_yang(782506462) 10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com> 10:31:35
你测试下
开心延年-alipay<myn@163.com> 10:31:45
验证下结果是否正确就知道了
开心延年-alipay<myn@163.com> 10:31:56
邮件中我给出了测试代码
在路上(386728737) 10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754) 10:32:39
是呀
开心延年-alipay<myn@163.com> 10:33:11
都发给大家了
风(51263) 10:33:50
squallzhong@gmail.com,我也要一份
广州-ZBIRD(258987928) 10:34:56
zbird.6208@gmail.com
广州-ZBIRD(258987928) 10:35:07
在路上(386728737) 10:35:59
开心,都改了哪些类?
开心延年-alipay<myn@163.com> 10:36:12
在路上(386728737) 10:36:28
能否兼容lucene3.3~3.4版本?
开心延年-alipay<myn@163.com> 10:36:40
TermInfosReader与TermInfosWriter
开心延年-alipay<myn@163.com> 10:36:46
肯定不兼容了
开心延年-alipay<myn@163.com> 10:36:51
索引都变了
bruce_yang(782506462) 10:36:51
找不到啊
开心延年-alipay<myn@163.com> 10:36:56
你以为我是作者啊
bruce_yang(782506462) 10:36:57
叫啥名字
lykke.lm(715356603) 10:37:06
呵呵
日期:2011/11/24
开心延年-alipay<myn@163.com> 10:37:07
你邮箱多少
bruce_yang(782506462) 10:37:14
yangfuchao2010@gmail.com
bruce_yang(782506462) 10:37:28
不兼容?
bruce_yang(782506462) 10:37:41
擦
kwee(836232886) 10:37:43
ikweesung@gmail.com
开心延年-alipay<myn@163.com> 10:37:47
就三天晚上 还兼容啊 呵呵
在路上(386728737) 10:38:14
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462) 10:38:30
北京一家牛逼个欧诺公司
bruce_yang(782506462) 10:38:33
公司
bruce_yang(782506462) 10:38:36
又要不去的没
bruce_yang(782506462) 10:38:42
乐荐网络(www.joyrec.com)
开心延年-alipay<myn@163.com> 10:40:44
没测试过呀
bruce_yang(782506462) 10:42:41
还是没收到呢
bruce_yang(782506462) 10:42:42
开心
开心延年-alipay<myn@163.com> 10:43:33
你的邮箱不让发吧
高调-失业中(13574798) 10:43:33
群共享源码
bruce_yang(782506462) 10:43:46
lucene2000@163.com
bruce_yang(782506462) 10:43:48
这个吧
kwee(836232886) 10:44:00
ikweesung@163.com.
bruce_yang(782506462) 10:46:23
收到了 tks
高调-失业中(13574798) 10:46:30
13574798@qq.com
kwee(836232886) 10:46:53
谢谢 收到。
伟大的小白(439297317) 10:47:03
变那么多人研究luncene了?
开心延年-alipay<myn@163.com> 10:47:12
空间不足 无法上传 汗
高调-失业中(13574798) 10:47:35
上传到零时空间
bruce_yang(782506462) 10:48:16
lucene4 听说改动很大
kelo_北京(13581754) 10:48:25
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462) 10:48:26
性能提升 非常大
bruce_yang(782506462) 10:48:41
kelo。北京
开心延年-alipay<myn@163.com> 10:48:43
lucene4 都出来啦
开心延年-alipay<myn@163.com> 10:48:47
改动了啥呀
bruce_yang(782506462) 10:48:47
你现在数据多少
bruce_yang(782506462) 10:48:57
lucene4 已经 测试了
bruce_yang(782506462) 10:48:58
开始
bruce_yang(782506462) 10:49:08
算法改动很大
伟大的小白(439297317) 10:50:30
lucene4把api接口都换了
伟大的小白(439297317) 10:50:41
实现策略也是
伟大的小白(439297317) 10:50:48
基本不能过度
kelo_北京(13581754) 10:51:16
没看到呀
kelo_北京(13581754) 10:51:25
看看svn里头的
kelo_北京(13581754) 10:51:48
呵呵,自玩的
清澈高远(305412982) 10:51:55
lucene更新很快
bruce_yang(782506462) 10:52:19
bruce_yang(782506462) 10:52:27
http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317) 10:53:37
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿
bruce_yang(782506462) 10:53:45
http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462) 10:53:47
原文
bruce_yang(782506462) 10:54:31
哪位研究过sensei
开心延年-alipay<myn@163.com> 10:55:10
不行了 得干活了 如果还有人想要源码 发邮件给myn@163.com 我定期回复
伟大的小白(439297317) 10:55:11
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462) 10:55:40
搞这么大 更新太快了
bruce_yang(782506462) 10:55:52
lucene3 变化很大
bruce_yang(782506462) 10:55:59
现在4也很大
广州-ZBIRD(258987928) 10:56:17
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317) 10:56:41
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462) 10:58:17
linkedin 公司的分布式搜索
bruce_yang(782506462) 10:58:23
哪位研究过
源远流长(117405390) 10:58:30
zoie?
bruce_yang(782506462) 10:58:34
不是
bruce_yang(782506462) 10:58:38
sensei
分享到:
相关推荐
6. **API与集成**:Openfire提供了丰富的API和插件开发接口,开发者可以通过这些接口来定制聊天记录的显示、搜索和管理功能。例如,可以开发一个Web界面,让用户在浏览器中查看和管理他们的聊天记录。 7. **性能...
3. **搜索功能**:通过关键词搜索聊天内容。 4. **导出功能**:将聊天记录导出为文本、XML或其他格式,便于备份或离线查看。 5. **权限管理**:可能有权限设置,限制谁可以查看和管理聊天记录。 6. **统计分析**:...
在Android开发中,ListView是一种常用的UI组件,常用于展示大量数据列表,如聊天记录、通讯录等。本教程将深入探讨如何在Android中利用ListView来实现一个聊天记录的界面。 一、ListView的基本概念 ListView是...
3. GUI设计:易语言支持创建图形用户界面(GUI),用户可以通过界面来浏览和搜索聊天记录。源码中可能会包含窗口、列表框、按钮等控件的设计和事件处理代码。 4. 多线程:如果程序需要在管理聊天记录的同时保持QQ...
基于Python的Telegram中文聊天记录搜索机器人.zip 一个支持关键词和用户名搜索群聊记录的Telegram Bot Telegram自带搜索对CJK等语言的支持仅限于整句, 不支持关键词(3202年中仍未支持)。本项目通过存储聊天记录, ...
聊天记录管理程序可能包含列表显示聊天记录、搜索框、导出按钮等元素,开发者需要合理布局和设计,提供良好的用户体验。 7. **安全与隐私**: 在处理聊天记录时,必须注意用户的隐私保护。任何涉及到用户数据的操作...
这部分可能包含过滤、搜索、排序聊天记录的函数,帮助用户根据关键词、日期或其他条件查找特定的聊天内容。此外,还可能有统计分析功能,如统计与某人的聊天频率、最常出现的词汇等,为用户提供更深入的数据洞察。 ...
* 一般情况下,点击查看 MSN/历史聊天记录按钮后,软件可以搜索出电脑上所有和 MSN 的历史聊天数据和聊友列表。 * 如果需要指定其他目录下的 MSN/号,点击软件顶部的文件选择目录菜单或点击指定目录按钮即可。 二、...
在这个场景中,我们主要关注的是如何使用shell脚本处理QQ聊天记录,将其按照不同的QQ号码分开存储,并实现倒序排列。这涉及到Linux shell脚本编程的一些核心概念和技术,下面将详细介绍。 首先,让我们了解什么是...
在日常生活中,微信作为一款广泛使用的社交应用,我们的许多重要信息和交流都存储在其中的聊天记录里。然而,随着时间推移,聊天记录越来越多,有时我们可能误删了一些重要的对话,或者需要查找很久以前的某条信息。...
4、可以搜索聊天记录,可以按月选择聊天记录。 WX Backup操作: 1、iTunes备份:用iTunes连接iPhone,将内容备份到电脑上。请注意,不要选择”给iPhone备份加密“! 2。打开软件选择备份文件夹。根据选择的账号和...
这个"openfire聊天记录插件"是为了增强Openfire服务器的功能,提供聊天记录的存储和检索能力,使得用户可以回顾和查找之前的对话历史,这对于企业内部沟通、客户服务或者团队协作都是非常有价值的。 首先,我们要...
以下是关于 QQ 软件聊天记录导入的详细教程: 一、2021 版本 QQ 软件聊天记录导入 QQ 软件聊天记录导入需要使用消息管理器工具。在 2021 版本的 QQ 软件中,可以按照以下步骤进行聊天记录导入: 1. 打开消息管理...
在日常生活中,微信已经成为了我们不可或缺的沟通工具,其中存储的聊天记录往往包含了许多重要的信息。如果意外删除了这些记录,可能会给我们带来诸多不便。本文将详细介绍两种方法,帮助你快速恢复微信删除的聊天...
4、可以搜索聊天记录,可以按月选择聊天记录。 WX Backup操作: 1、iTunes备份:用iTunes连接iPhone,将内容备份到电脑上。请注意,不要选择”给iPhone备份加密“! 2。打开软件选择备份文件夹。根据选择的账号和...
首先,软件会执行深度扫描,对用户计算机的硬盘进行全面的搜索,目的是为了找到与QQ聊天记录相关的数据碎片。这里需要指出的是,即使在QQ界面上看不到了聊天记录,也不代表数据已经被彻底清除。大部分情况下,删除...
"自动搜索导入" 可以让程序自动搜索存在的聊天记录及自定义表情,而 "从指定目录导入" 则需要选择包含您号码的文件夹,并在该文件夹范围内进行搜索导入。最后,"从指定文件导入" 则需要选择您所备份的聊天记录文件或...
以下是关于如何删除飞信聊天记录的详细步骤: 1. **登录飞信**:首先,你需要在电脑上打开飞信应用程序,确保你已经正确登录了自己的飞信账号。这通常需要输入手机号码和密码,或者使用其他授权方式如微信、QQ等...