- 浏览: 1272601 次
- 性别:
- 来自: 深圳
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
文章列表
问题是---------bufferreader不管如何转化字符集读取,内容显示均为乱码;后来,使用htmlparse解析html的开源代码,发现在读取网页时没有问题 ==== trace code 发现 乱码有可能是压缩网页造成比如是-----gzip格式的网页;所以采用以下代码读取网页是没有问题
public static void GetFromHtml() throws IOException{
//int ret=0;
String contentEncoding;
HttpURLConnection url=null;
//String htmladdr="http://w ...
- 2008-12-22 22:58
- 浏览 4089
- 评论(0)
今天要用异地访问java某个类,用到了Java RMI,到网络中搜索了一些资料,搜索不到关于异地的实例,都是关于本地的,乘着这个机会,写一下关于异地访问java某个类的实例。
步骤一:
1.定义一个远程接口的接口,该接口中的每一个方法必须声明它将产生一个RemoteException异常。
import java.rmi.Remote;
import java.rmi.RemoteException;
public interface myProject extends java.rmi.Remote //需要从Remote继承
{
public St ...
- 2008-12-20 15:19
- 浏览 1945
- 评论(1)
优酷为什么封百度?
这几日源自techweb的报道称:优酷网已经屏蔽了来自两大搜索引擎的“蜘蛛”,目前在百度视频和谷歌视频搜索不到任何与优酷相关的内容。百度的相关人士说:优酷确实主动屏蔽了百度和谷歌,这也不是最近一两天的事,而有较长的一段时间。“具体原因我们并不清楚”
。
关于这件事,说说我的几个看法吧
1、这事违反常规了,无论什么网站,流量都是命根子,没有流量的网站一分钱不值,没流量就没人投广告;没人投广告,结果就是@#%……&!@%@。
2、过冬了,视频网站要消减的肯定是带宽的费用,优酷在现有的情况下,熬过冬天是最重要的,几家视频网站的钱花的也差不多 ...
- 2008-12-20 12:32
- 浏览 927
- 评论(0)
有时候,在抓取网站的时候,网站的编码方式可能不统一,这样的情况,可能有些网页编码不成功,而htmlparser报了错,不能正常的读取。抛出来的异常为:org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old: [0xd6?]) for encoding change from ISO-8859-1 to GB2312 at character offset 23
为了解决不管它是用何种编码方式,都能够正常读取数据。我在htmlparser的Page类中加了一个字段,之 ...
- 2008-12-19 18:52
- 浏览 10936
- 评论(10)
向量空间法(VSM)
在过去的40多年中,许多关于信息检索的研究工作都是围绕着Salton提出的向量空间法展开的,它也是被广泛使用的Smart系统的基础。在向量空间法中,每个文档被看成一个词袋,然后被表示成词条权重的向量:Di = (Wi1,Wi2,Wi3,...,Win),其中D表示一个文档,n表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用tf-idf方法或者它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。尽管向量空间法最初是用于信息检索,它也被广泛地用于许多分类系统。此时每个类用一个中心向量代表。分类时通过检查待分类文档和这些 ...
- 2008-12-19 12:48
- 浏览 1451
- 评论(0)
随这互联网在全球的普及和应用的不断发展,Web上的文本资源近年来呈现爆炸式增长,如何充分有效地利用这些信息成为人们关注的焦点。文本分类通过自动为文本标注类别,可以有效地帮助人们组织管理文本信息,已 ...
- 2008-12-19 12:38
- 浏览 1695
- 评论(0)
今天,有个人问我,前几天已经可以抓取,今天不知道为什么就不可以抓取。
String url = "http://company.zhaopin.com/P2/CC1202/0271/CC120202712.htm?f=sa&DYWE=1223885821046.175835.1223890656.1223891112.9";
他用的办法是
URL url = new URL(url);
URLConnection conn = url.openconnection(url);
结果,返回的是403报错,禁止了这次的操作。
我没看过JAVA URL源代码,不知道它底层是 ...
- 2008-12-18 16:26
- 浏览 1591
- 评论(0)
前几天,在用htmlparser分析页面时,遇到一个郁闷的问题,在爬取得时候,htmlparser停住啦,当时没报任何的错误。我以为多等一会它就会报一个异常啦,结果,等了一个上午,还是停在那里不动。实在等不下去啦,直接看它的源代码,原来是获取数据的时候,获取到一半,停在那里,我找不到在哪里修改它的代码,结果是我不用htmlparser进行连接下载数据,而htmlparser单纯是用于分析页面。我链接那部分是用
url1 = new URL(url);
URLConnection urlcon = url1.openConnection();
...
- 2008-12-18 10:10
- 浏览 2115
- 评论(0)
今天,两个字-“好吧”。终于结束了不属于我的爱情,有点痛痛的,有点轻松的,有点嘶嘶点,有点,,,听歌吧。是忘记的时候啦~
- 2008-12-15 12:38
- 浏览 864
- 评论(0)
create table temp_table ( id int, name varchar(20) ) insert into temp_table values(3,'1') insert into temp_table values(4,'1') insert into temp_table values(5,'1') select * into #temp from temp_table go alter ...
- 2008-12-14 01:03
- 浏览 1241
- 评论(0)
http://hi.baidu.com/anspider/blog/item/0718fa0004330605728da522.html
基于深网络的垂直搜索引擎蜘蛛的基本解决方案
最初接触搜索引擎是2年前,一位北京的朋友(对我帮助很大)让我帮他设计了一只抓网页的蜘蛛。当时我头一次听说蜘蛛,半天没有回过神来,心想:蜘蛛?莫非是蜘蛛机器人?后来我还知道,蜘蛛也被人称为爬虫,正规的名称叫Spider。
第一次写蜘蛛的程序时,阅读了很多规范,同时找到了几个c#代码的(c#是朋友要求的语言)免费的Html解析的库(我记得有一个是解 ...
- 2008-12-13 16:50
- 浏览 2198
- 评论(2)
在做仓库作业的时候,遇到了一些比较特殊的情况,sql server2005中没有传统sql
server附带的两个实例数据库,pubs和northwnd,在附加sql
server2k的mdf的时候遇到了一些麻烦,系统会提示ldf文件丢失,通常回复单个mdf文件有以下几种办法:
2k:
对SQL中的日志文件不慎删除后,附加MDF文件,提示LDF文件有问题,导致MDF无法附加的情况,错误提示是
未能打开新数据库 'smartcard'。CREATE DATABASE将终止
日志文件 'C:\Program Files\Microsoft SQL Serve ...
- 2008-12-13 14:29
- 浏览 2292
- 评论(0)
今天用htmlparser分析了一些网页,在过程中,有一个网页不能分析,htmlparser内部抛出异常,终止了程序。这个时候,必须在自个写得程序再一次抛出异常,这样就不会出现程序被终止的现象啦。一般情况下,它会抛出ParserException,IOException异常。所以在外壳加上:
try{
//自个程序......
}catch(ParserException e){
}catch(IOException e){
}
- 2008-12-12 16:11
- 浏览 1062
- 评论(0)
SimpleDateFormat bartDateFormat = new SimpleDateFormat("yyyy-MM-dd");
Date date = new Date();
System.out.println(bartDateFormat.format(date));
- 2008-12-11 16:25
- 浏览 871
- 评论(0)
public void totalpage(String total){
int pagecount = new Integer(total);
int newpagecount = pagecount%10;
if(newpagecount == 0){
pagecount = pagecount/10;
}else{
pagecount = pagecount/10;
pagecount += 1;
} ...
- 2008-12-11 15:55
- 浏览 957
- 评论(0)