`
diddyrock
  • 浏览: 46159 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论
文章列表
http://www.xiaohui.com/weekly/20070307.htm http://www.xiaohui.com/dev/server/20070701-discuz-mysql-cpu-100-optimize.htm
靠merge过日子了 妈的,发现老子编程还是有点慧根的 今天构思了一个 searching cache server java的cache是肯定不能用了 走query filter 里面走 等基本功能完善之后我好好测试测试搭建一下, 速度慢的话拿出来和大家讨论讨论
有强大的cURL,忘掉httpclient的吧! 这段时间想做一个网页采集的程序,由于一网站采用了防采集的办法,我的httpclient总是在登录后无法获取到我想要过去的链接。在无数次的跟踪过后发现原来人家给返回的是javascript拼成的页面,而且其中包含了frameset,期间嵌套好多frame。由于httpclient的 getResonseBody仅仅只能得到服务器端而不能将它进一步做解析和执行。期间到时尝试想进一步将返回的js代码模拟浏览器执行,但是,突然想起 php的cURL 模块很是强大,它就可以直接拿回来。所以就想是否尝试cURL是否会很简单哪? 安装cURL Java代码 ...
md几年没摸c了,fread用了个 "rt",这下挂了,以后一定'rb',切记!!
此博估计唯一一个完整可编译的代码哈哈 import java.io.*; import java.util.*; //Commons Logging imports import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; public class TestProcess{ public static final Log LOG = LogFactory.getLog(TestProcess.class);     public static int doWaitF ...
FileOutputStream output = new FileOutputStream(storeFile); byte[] buffer = new byte[2*1024]; int bufferFilled = 0; while((bufferFilled = imageStream.read(buffer, 0, buffer.length))!=-1){ output.write(buffer,0,bufferFilled); } output.close(); 发现JE上面很多贱人,老子写的笔记虽然残缺不全不能编译,但是代码都是运行过才拿上 ...
3.0有时候会有connection timing bug the situation has not happened under 4.0 this is how to step forward to the 4.0 edition 不过4.0设计的不如3.0爽阿,包结构太复杂,源代码看起来很费劲,折腾了一天,留此 以记 : this.params = new BasicHttpParams(); ConnManagerParams.setMaxTotalConnections(params, 5); ConnManagerParams.setTimeout(params, T ...
inner class fetcher: 323: metadata.set(Nutch.SEGMENT_NAME_KEY, segmentName); /** Return the set of anchor texts.  Only a single anchor with a given text    * is permitted from a given domain. */ IndexerMapReduce.reduce: else if (CrawlDatum.hasFetchStatus(datum)) {           // don't index unmodif ...
转载自 http://sdh5724.iteye.com/blog/283977 <本文提供的设置仅仅是在高压力, 多CPU, 高内存环境下设置> 最近对JVM的参数重新看了下, 把应用的JVM参数调整了下。  几个重要的参数 -server -Xmx3g -Xms3g -XX:MaxPermSize=128m -XX:NewRatio=1  eden/old 的比例 -XX:SurvivorRatio=8  s/e的比例 -XX:+UseParallelGC -XX:ParallelGCThreads=8 -XX:+UseParallelOldGC  这个是JAVA 6出 ...
暂时搁置缓存的配置,等全部搞完之后优化完了对象再进行配置
xml 的属性必须有属性值,且属性必须用引号括起来 在xml中可以不考虑使用属性,完全使用元素 <![CDTA[包含特殊字符恶不需要解释为标记]]> 分析与处理html其实还好,java中的sax与dom实现可以很好的完成对标准html文件的解析 所以首先第一步就是利用第三方的能够容错的处理程序把需要分析的html程序先进行纠错分析,比如用neko的documentFragment,然后转化之后再进行处理分析 HTML <base> 标签 定义和用法 base 元素可规定页面中所有链接的基准 URL。 通常情况下,浏览器会从当前文档的 URL 中提取相应的元素来填写相 ...
HTTP请求爆头: host 爆头, referer爆头,对于引用来源分析比较重要,这个可以用于分析用户行为,只要建立一个简单的servlet就可以进行关联,比如记录下用户从哪个关键词跳来,要做到这一点得保证你的网页得是REST的 user-agent爆头,这个爆头一般设计浏览器识别,最好定义为IE类似,以免响应server中做了特殊处理 HTTP响应爆头: 主要是一些响应状态需要处理其他的爆头直接用hash存到一个metadata里面,n 中主要关心的是100状态,这个鸟状态下面的话,socket需要不停的循环等待input中的状态被置为非100
thread的4个状态: new runnable blocked dead 其中new之后调用start就变为runnable java中无法确定an alive thread iss runnable or blocked,也无法确定a runnable is running sun java VM中所有的线程有着相同的优先级,不对操作系统进行映射 在java1.5之后,有两种机制来保护代码块不受干扰,synchronized和reentrantLock,不过reentrantLock这种实现方法不利于调试死锁,加上遗留代码多调用synchronized,建议使用synchronized。 ...
n版本 0.9 n采用了 OPIC算法来实现 目前网络上的排序算法都是依托图论来实现对整个互联网页面的排序,起基本的思想有以下几点:将互联网表示为一个图G,用矩阵L来描述,其中L非负,如果在L中的两点(i,j)存在链接,那么L|(i,j)|>0,google直接认为如果存在链接,那么d(i,j)=外链的倒数。 剩下的就是一堆md所谓的数学推导,其实基本上离不开d(i,j)这个鸟概念,对于函数实现主要就是搞搞d(ij) n 中的 OPIC算法主要就是基于d(i,j)这个概念出发,构建了L矩阵,将整个爬到的网页分为n个节点,每个节点分配一个cash值一个history值,cash值在初始分配的 ...
网页快照乱码问题修正。修改页面tcached.jsp,将content = new String(bean.getContent(details))修改为content = new String(bean.getContent(details),"utf-8")。 还有就是tomcat 6以上版本 jsp中不能有" " "号,要以" ' "取代 protocal: 每一次返回的是插件里面的protocal, FetcherThread->protocolFactory->extention->instan ...
Global site tag (gtag.js) - Google Analytics