`
imjl
  • 浏览: 156317 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
有天看到某博上有招phper的,看了下,他们要求为了1ms的误差可以研究一整天的人,薪水是个某算法的某位数。 有不同看法,所以说了几句。在这里主要记录下我的这一看法。 code我现在最看重的是可维护性。那种高效但晦涩的代码我觉得不好,理由: 很少有人能在一个公司待到老,也就是会走,走后除非这个代码不用了,否则就需要人来维护,应该招什么样的人呢?为了这些代码招高人?高人很难招的,即便招到,维护这些代码,高手不爽,他有他的style。低手把又不能维护这些代码,重新开发?开发,测试,上线又需要很多时间。 如果将代码写得俗气点,低手也能看得懂,至少修改时能知道该修改哪里。速度慢点,不要紧,可以 ...
msn群发:php开发,freebsd下测试,100个msn帐号,25秒完成登录,常规单个是3.5秒左右。 车的爬虫:c#开发,针对国内几家特定网站爬取数据。小东西懒得看时间,当作c#的练手。 社区智能爬虫:自动识别当前社区的数据,大部分社区是不需要做任何配置信息,程序自动识别,支持带框架的社区,支持rss结构数据。(不支持JS, FLASH以及极少数特殊类型的社区) 目前是社区首页的主题,点击和回复数,根据它分析社区热度。测试17万版面,准确率大概在90%以上。 php测试算法,算法通过测试后,正式用c#写。识别平均速度:300ms。
  这是一个不需要工程师的年代,官员、老板、商人大行其道。   瞬间一:春节回家,经商富裕的二叔笑问:“隔壁的小王(中专毕业)当经理了,你什么时候当呢?还在搞技术?实在不行回来跟叔做生意”   瞬间二: ...
根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。 测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。 测试语言:php,但是实际开发语言可能会用c#。 数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。 虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。 搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。 je怎么没有回自己的功能....我只好修改下 数据如果要跑的话,增量将是50万的100倍,,, 当然不 ...
用c#写爬虫入库时,出错,关键词不大好打,直接问同事,测试了下,好像字段定义有问题 于是要检查字符串长度 我习惯性的打开zend studio,就要打php code来看字符串长度。(我就记得两行代码可以解决) 弄得旁边的同事大叫,这用不着code把? 我很汗 于是遵从他的建议,打开editplus,选中字符串右键居然有个统计,虽然我也常用editplus,但从来没用过右键。 刚看到一cuer居然不会用office,想想我今天的惯性动作,回想了以前的行为,经常会有种写也许比查或者找工具解决来得快。 看来我比较适合coder这份工作。 ps:那为什么只有北京的公司不断邀 ...
看msn协议和有关开源的代码,文档真够少的。 用dotnet写爬虫 前段时间说不上的搜索又要上了。 合同要到期了,签? python很酷,昨天翻了下python的书,真不错。 雅虎一哥们推荐的深入浅出mysql,面面俱到,不够深入。 书都是china-pub买得,那个包装真不是一般的寒碜,一个塑料袋还是破的。两本书100多块,这包装怎么也得好点把。 买了macbook,苹果系统还真好玩。
公司重心转移,不再是搜索。所以比较有空写写博。   solr是lucene的企业级扩展,很好很强大。solr的性能 http://wiki.apache.org/solr/SolrPerformanceData, 现在使用solr的网站 http://wiki.apache.org/solr/PublicServers  我习惯使用tomcat,安装参考:http://wiki.apache.org/solr/SolrTomcat,当然你也可以使用其他Contains来安装。(现在的wiki真详细,以前都靠自己摸索) 如果安装成功,浏览器地址栏输入: http://localhost:808 ...
介绍solr solr是lucene的拓展,是cnet在使用lucene的一个应用而出的开源项目。具体参看wiki。 跟踪这个开源项目至今快1年半了,具体时间我想不起了。 现在国内用的人还太少,我只碰到两个人问我中文的事情。以前关于它的文字在我以前的blog,那里我很久没更新了。(myopera给和谐了) 国内的介绍文档比较老,solr更新了很多,现在的release版本是1.2,1.3也快出来了。 使用:程序将数据合成xml(cvs)格式发送给solr就可以完成索引。搜索根据solr提供的方式可以获得xml,json,php,python很多格式数据。 所以当前大多数开发语言都可 ...
http://ftp.monash.edu.au/pub/nihongo/00INDEX.html
刚发完邮件,,看到了。。 真不错。
Lucene goodness Lots of good things happening in Lucene land lately, all of which should benefit users with faster indexing and searching capabilities.  Most notably, Lucene 2.3 (hopefully released this quarter) has some major changes in indexing memory management and performance.  I have personally ...
数据达到一定规模,一台机器不能满足你要求,也许你该考虑分布式。 那么如何分,分的合理。 我觉得可以从这几方面考虑: 1: 业务 2: 效率 3: 余   业务:不同业务会有不一样的划分。举个简单例子,比如我有博客和mp3搜索两部分,这两者对于业务而言,是两个独立部分。那么将博客的索引放在一起,mp3的索引放在一起。 效率:程序设计,操作系统和硬件资源结合。合理使用硬件资源是重点。常见的mysql的isam+innodb的搭配。 余:通常它是在前面两者都不能分的时候才会用到。将资源划分成n分,采用余的方式,将资源划分。   复杂的分布式是这几种结合。分布式的好坏将决定你整个系统的扩展,稳定,效率。 ...
工作学习中碰到一些老表,有些不同想法。 举例说明: 用户登录系统: 传统: id, uId, uPs, uName, uDesc, uMail, uLogo, regTime, isBlocked, lastInTime一般一个表就可以。 对于并发用户多的话,那么就点问题。 每次用户登录时,都会对该表进行读操作。登录成功后,都会更新用户的lastInTime(最后登录时间),也就是写操作,中间用户还可能修改其uDesc,  uMail, uLogo(用户简要描述,用户mail,用户的logo图片来个性化自己). 这是读写的差异,实际上按照我们功能定义,对表的操作也可以分为经常读,很少读,经常写, ...
建议看原版。 我觉得这本书能让你对lucene有一个大概的了解,要深入,靠这本书不可能的。 两名作者目前现在都是lucene的Project Management Committee. 有什么看法也可以回帖,大家一起讨论。如果有必要,我可以将问题转给otis本人。
非常感谢javaeye能提供这么个平台,让我们这些lucene的爱好者有了能聚在一起互相学习的机会。 圈子的地址: http://lucene-group.group.iteye.com/
Global site tag (gtag.js) - Google Analytics