`
lzj0470
  • 浏览: 1272601 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
问题是---------bufferreader不管如何转化字符集读取,内容显示均为乱码;后来,使用htmlparse解析html的开源代码,发现在读取网页时没有问题 ==== trace code 发现 乱码有可能是压缩网页造成比如是-----gzip格式的网页;所以采用以下代码读取网页是没有问题 public static void GetFromHtml() throws IOException{ //int ret=0; String contentEncoding; HttpURLConnection url=null; //String htmladdr="http://w ...
今天要用异地访问java某个类,用到了Java RMI,到网络中搜索了一些资料,搜索不到关于异地的实例,都是关于本地的,乘着这个机会,写一下关于异地访问java某个类的实例。 步骤一: 1.定义一个远程接口的接口,该接口中的每一个方法必须声明它将产生一个RemoteException异常。 import java.rmi.Remote; import java.rmi.RemoteException; public interface myProject extends java.rmi.Remote //需要从Remote继承 { public St ...
优酷为什么封百度?       这几日源自techweb的报道称:优酷网已经屏蔽了来自两大搜索引擎的“蜘蛛”,目前在百度视频和谷歌视频搜索不到任何与优酷相关的内容。百度的相关人士说:优酷确实主动屏蔽了百度和谷歌,这也不是最近一两天的事,而有较长的一段时间。“具体原因我们并不清楚” 。   关于这件事,说说我的几个看法吧 1、这事违反常规了,无论什么网站,流量都是命根子,没有流量的网站一分钱不值,没流量就没人投广告;没人投广告,结果就是@#%……&!@%@。   2、过冬了,视频网站要消减的肯定是带宽的费用,优酷在现有的情况下,熬过冬天是最重要的,几家视频网站的钱花的也差不多 ...
     有时候,在抓取网站的时候,网站的编码方式可能不统一,这样的情况,可能有些网页编码不成功,而htmlparser报了错,不能正常的读取。抛出来的异常为:org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old:  [0xd6?]) for encoding change from ISO-8859-1 to GB2312 at character offset 23 为了解决不管它是用何种编码方式,都能够正常读取数据。我在htmlparser的Page类中加了一个字段,之 ...
向量空间法(VSM) 在过去的40多年中,许多关于信息检索的研究工作都是围绕着Salton提出的向量空间法展开的,它也是被广泛使用的Smart系统的基础。在向量空间法中,每个文档被看成一个词袋,然后被表示成词条权重的向量:Di = (Wi1,Wi2,Wi3,...,Win),其中D表示一个文档,n表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用tf-idf方法或者它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。尽管向量空间法最初是用于信息检索,它也被广泛地用于许多分类系统。此时每个类用一个中心向量代表。分类时通过检查待分类文档和这些 ...
      随这互联网在全球的普及和应用的不断发展,Web上的文本资源近年来呈现爆炸式增长,如何充分有效地利用这些信息成为人们关注的焦点。文本分类通过自动为文本标注类别,可以有效地帮助人们组织管理文本信息,已 ...
今天,有个人问我,前几天已经可以抓取,今天不知道为什么就不可以抓取。 String url = "http://company.zhaopin.com/P2/CC1202/0271/CC120202712.htm?f=sa&DYWE=1223885821046.175835.1223890656.1223891112.9"; 他用的办法是 URL url = new URL(url); URLConnection conn = url.openconnection(url); 结果,返回的是403报错,禁止了这次的操作。 我没看过JAVA URL源代码,不知道它底层是 ...
前几天,在用htmlparser分析页面时,遇到一个郁闷的问题,在爬取得时候,htmlparser停住啦,当时没报任何的错误。我以为多等一会它就会报一个异常啦,结果,等了一个上午,还是停在那里不动。实在等不下去啦,直接看它的源代码,原来是获取数据的时候,获取到一半,停在那里,我找不到在哪里修改它的代码,结果是我不用htmlparser进行连接下载数据,而htmlparser单纯是用于分析页面。我链接那部分是用             url1 = new URL(url);             URLConnection urlcon = url1.openConnection();     ...
今天,两个字-“好吧”。终于结束了不属于我的爱情,有点痛痛的,有点轻松的,有点嘶嘶点,有点,,,听歌吧。是忘记的时候啦~
create   table   temp_table     (         id   int,         name   varchar(20)     )         insert   into   temp_table   values(3,'1')     insert   into   temp_table   values(4,'1')     insert   into   temp_table   values(5,'1')         select   *   into   #temp   from   temp_table     go     alter  ...
http://hi.baidu.com/anspider/blog/item/0718fa0004330605728da522.html 基于深网络的垂直搜索引擎蜘蛛的基本解决方案                  最初接触搜索引擎是2年前,一位北京的朋友(对我帮助很大)让我帮他设计了一只抓网页的蜘蛛。当时我头一次听说蜘蛛,半天没有回过神来,心想:蜘蛛?莫非是蜘蛛机器人?后来我还知道,蜘蛛也被人称为爬虫,正规的名称叫Spider。                第一次写蜘蛛的程序时,阅读了很多规范,同时找到了几个c#代码的(c#是朋友要求的语言)免费的Html解析的库(我记得有一个是解 ...
在做仓库作业的时候,遇到了一些比较特殊的情况,sql server2005中没有传统sql server附带的两个实例数据库,pubs和northwnd,在附加sql server2k的mdf的时候遇到了一些麻烦,系统会提示ldf文件丢失,通常回复单个mdf文件有以下几种办法: 2k: 对SQL中的日志文件不慎删除后,附加MDF文件,提示LDF文件有问题,导致MDF无法附加的情况,错误提示是 未能打开新数据库   'smartcard'。CREATE   DATABASE将终止   日志文件   'C:\Program   Files\Microsoft   SQL   Serve ...
今天用htmlparser分析了一些网页,在过程中,有一个网页不能分析,htmlparser内部抛出异常,终止了程序。这个时候,必须在自个写得程序再一次抛出异常,这样就不会出现程序被终止的现象啦。一般情况下,它会抛出ParserException,IOException异常。所以在外壳加上: try{     //自个程序...... }catch(ParserException e){   }catch(IOException e){   }
        SimpleDateFormat bartDateFormat = new SimpleDateFormat("yyyy-MM-dd");         Date date = new Date();         System.out.println(bartDateFormat.format(date));
    public void totalpage(String total){         int pagecount = new Integer(total);                        int newpagecount = pagecount%10;         if(newpagecount == 0){             pagecount = pagecount/10;         }else{             pagecount = pagecount/10;             pagecount += 1;         } ...
Global site tag (gtag.js) - Google Analytics