`
imjl
  • 浏览: 156319 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
因为这里不太稳定,,所以在baidu   http://hi.baidu.com/imjl_cn/blog/    新开一个,做备用。 两边同时发,博文主要作为个人备份。
cmd为苹果键 关闭tab                 cmd+w 退出safari              cmd+q tab切换                 ctrl+tab 书签快捷从左到右    cmd+1,+2 显示TOP SITES       cmd+shift+1 当前tab刷新           cmd+r 最小化                   cmd+m 备份下
我twitter号: imjl_live_cn 即时聊天太过于正式,经常怕骚扰到他人而不敢说。 有时候分享东西给对此感兴趣的朋友,却又不知如何做? 想找个志同道合的朋友聊某个话题,看着密密麻麻的msn,却不知道找谁聊 觉得twitter满适合solve it。
听朋友们说51job要多刷新简历,于是我在待业第二天就写了简历,开始还能每天刷,后来隔几天刷,现在懒得刷。-------------至今点击率为0.   猎头们忽悠我去杭州试试,还有忽悠去北京的,我不能去外地。 不上班找点事做,于是写网站,PHP+MYSQL,看了几个framework,最后用codeigniter,满爽的,推荐大家使用。code时间很少,大多数时间花在研究需求和产品设计上面, solr1.4出来一段时间了,我都没仔细看过。最近断断续续看了一点,改天整理下 google reader 增订几个经济的博客,了解些经济知识。 天凉之前每天早上散步 ,现在凉了,,就 ...
只适合无锁版 我iphone是3.0+越狱。。。想要升级到3.1+越狱 之前准备了,itunes最新版,3.1固件下载到本地,但是没有安装 今天看到 http://news.weiphone.com/news/iphone/news/2009-10-03/PwnageTool_3.1.3zhengshifabu_206792.shtml,,,然后到3g iphone的论坛版块里找到了PwnageTool下载。(只有mac版) 安装PwnageTool后,按照其提示一步步做了个自定义的固件,,,它会自动保存到桌面 将iphone和mac电脑连接,然后打开itunes,,option+cl ...
转载:http://www.lucidimagination.com/blog/2009/09/22/contrived-fieldcache-load-test-lucene-2-4-vs-lucene-2-9/ public class ContrivedFCTest extends TestCase { public void testLoadTime() throws Exception { Directory dir = FSDirectory.getDirectory(System.getProperty("java.io.tmpdir") ...
纪 念 下 这 个 有 意 义 的 一 天   
关键词已知的情况下,快速索引。 给定:1300个关键词,在1000条信息中比较,将对应的关键词和记录id记录下来。 分析:简单测试,将1300个关键词放入hashtable,循环1000次,一条条记录做IndexOf(c# 中判断字符串是否存在的方法),花费时间很长。 解决:重复太多,改进方法就是减小重复,将1300个关键词取第一,第二个char作为下标各自放入bit数组,建立第一个char对应的struct,包含该字符起头的最长关键词长度和最短关键词长度以及相应的关键词hash表。反向以最后和最后第二个char为下标放入另一bit数组。 从0开始到字符串长度的循环,一个个char判断,一 ...
新闻转载非常多,搜索新闻时常常碰到,结果里有很多相似新闻出现在一个页面,影响用户查看。 我这里说个主题(也就是新闻题目)相似计算。 分析:新闻主题大多是经过少量修改,大致状况是,加转载,截取主题,换个类似主题。 解决:过滤一些无意义字符,以主题的单个字符为hashtable主键,比较后计算相同key的出现次数,以它为分子,较小的hashtable长度为分母,获得一个比值,将它和一个常量(反复测试后获得的相似率)比较,一旦大于就认为其相似。 实际过程根据自己需要做些小调整,以上计算有最短长度限制(小于该长度的主题不计算)。 很早以前写得,现在工作中使用的,效果还行。
全文搜索大体分为:数据采集,索引,搜索。 我认为最重要的是搜索效果,大体表现在准确性,搜索结果排序,稳定,速度。准确和分词相关,排序是如何让最适合的结果出现在最前面,稳定这里指索引和搜索时的稳定,速度指索引,搜索使用以及维护。 当然这一切加上硬件,人力综合成一个性价比,这个值决定了最终使用哪个搜索架构(像我这样的懒人通常会基于一些现有的东西,在上面堆砌来完成) 基本确定后,就会写更加细的测试代码,根据数据特性,业务特性进行优化,充分利用硬件发挥其特性。以lucene索引部分为例就是addDoc,updateDoc,deleteDoc,commit,optimize效率,分词速度,内存占用,硬 ...
生活   有点累,想去旅游,甲型流感还没好,只好等(有相同想法的可以短信我,也许可以一起旅游) 工作   要做个亿级搜索,没啥感觉,我记得刚进公司时做个千万比较兴奋,也许那时我第一次做 发现   win自动化脚本也满多人用的   solr的mail-list多了几个中国人   iphone装得多了速度慢   适合我的公司似乎很少 等待   甲型流感结束   win2008正式版发布   新苹果系统和iphone3.0(似乎明天出)
也许我该考虑休息下了
在b2c的,或者感兴趣的可以PM我你的联系方式, 一起交流 
主要是针对论坛上的主题转载的过多,所以做个排重 5000条主题排重 以我破机器跑70秒左右,估计到p4 2.8 2g内存服务器上跑大概一半时间吧 没想出精确的算法, 粗略算法正确性还行。 先将就用着,改天有更好的再来修改 1条到5000条不同主题比较,大概100多ms,嘿嘿,懒得用啥算法,最原始的,够用,速度不够再优化吧,比前者好有大概思路的 折腾其他东西去
需要对一些信息进行产品Score的排序 思路: 厂家, 产品系列, 产品型号, 分销, 零售商等字典, 按照需求特性对他们进行分级 格式化用户请求信息, 根据上述字典切割成有效关键词, 根据这些关键词进行score计算 因为考虑到用户可能会输入些辅助词语, 所以找了个简单的常规字典来切分这类词语 根据词语的重要性, 出现的次数计算出score,对此排序. code比较简单, 这里需要注意的是如何分级, 分级的score如何设定. 简单的完成后, 排重需求比较急, 所以没有优化和测试该分词效率和资源占用状况 顺便说下通用搜索的分词, 目前已知的算法在准确性上面都有些不足之处. ...
Global site tag (gtag.js) - Google Analytics