HttpURLConnection读取html文件

博客分类：

java

问题是---------bufferreader不管如何转化字符集读取，内容显示均为乱码；后来，使用htmlparse解析html的开源代码，发现在读取网页时没有问题 ==== trace code 发现乱码有可能是压缩网页造成比如是-----gzip格式的网页;所以采用以下代码读取网页是没有问题 public static void GetFromHtml() throws IOException{ //int ret=0; String contentEncoding; HttpURLConnection url=null; //String htmladdr="http://w ...

2008-12-22 22:58
浏览 4101
评论(0)

异地和本地Java RMI调用

博客分类：

java

Java DOS 框架工作

今天要用异地访问java某个类，用到了Java RMI，到网络中搜索了一些资料，搜索不到关于异地的实例，都是关于本地的，乘着这个机会，写一下关于异地访问java某个类的实例。步骤一： 1.定义一个远程接口的接口，该接口中的每一个方法必须声明它将产生一个RemoteException异常。 import java.rmi.Remote; import java.rmi.RemoteException; public interface myProject extends java.rmi.Remote //需要从Remote继承 { public St ...

2008-12-20 15:19
浏览 1957
评论(1)

优酷为什么封百度？

博客分类：

杂文

百度搜索引擎互联网 Blog .net

优酷为什么封百度？这几日源自techweb的报道称：优酷网已经屏蔽了来自两大搜索引擎的“蜘蛛”，目前在百度视频和谷歌视频搜索不到任何与优酷相关的内容。百度的相关人士说：优酷确实主动屏蔽了百度和谷歌，这也不是最近一两天的事，而有较长的一段时间。“具体原因我们并不清楚” 。关于这件事，说说我的几个看法吧 1、这事违反常规了，无论什么网站，流量都是命根子，没有流量的网站一分钱不值，没流量就没人投广告；没人投广告，结果就是@#%……&！@%@。 2、过冬了，视频网站要消减的肯定是带宽的费用，优酷在现有的情况下，熬过冬天是最重要的，几家视频网站的钱花的也差不多 ...

2008-12-20 12:32
浏览 951
评论(0)

htmlparser 编码问题

博客分类：

htmlparser

QQ HTML

有时候，在抓取网站的时候，网站的编码方式可能不统一，这样的情况，可能有些网页编码不成功，而htmlparser报了错，不能正常的读取。抛出来的异常为：org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old: [0xd6?]) for encoding change from ISO-8859-1 to GB2312 at character offset 23 为了解决不管它是用何种编码方式，都能够正常读取数据。我在htmlparser的Page类中加了一个字段，之 ...

2008-12-19 18:52
浏览 10969
评论(10)

一种快速高效的文本分类方法（二）

博客分类：

算法

工作

向量空间法(VSM) 在过去的40多年中，许多关于信息检索的研究工作都是围绕着Salton提出的向量空间法展开的，它也是被广泛使用的Smart系统的基础。在向量空间法中，每个文档被看成一个词袋，然后被表示成词条权重的向量：Di = (Wi1,Wi2,Wi3,...,Win),其中D表示一个文档，n表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用tf-idf方法或者它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。尽管向量空间法最初是用于信息检索，它也被广泛地用于许多分类系统。此时每个类用一个中心向量代表。分类时通过检查待分类文档和这些 ...

2008-12-19 12:48
浏览 1466
评论(0)

一种快速高效的文本分类方法（一）

博客分类：

算法

算法网络应用互联网数据挖掘 Web

随这互联网在全球的普及和应用的不断发展，Web上的文本资源近年来呈现爆炸式增长，如何充分有效地利用这些信息成为人们关注的焦点。文本分类通过自动为文本标注类别，可以有效地帮助人们组织管理文本信息，已� ...

2008-12-19 12:38
浏览 1712
评论(0)

htmlparser如何连接网络

博客分类：

htmlparser

F#

今天，有个人问我，前几天已经可以抓取，今天不知道为什么就不可以抓取。 String url = "http://company.zhaopin.com/P2/CC1202/0271/CC120202712.htm?f=sa&DYWE=1223885821046.175835.1223890656.1223891112.9"; 他用的办法是 URL url = new URL(url); URLConnection conn = url.openconnection(url); 结果，返回的是403报错，禁止了这次的操作。我没看过JAVA URL源代码，不知道它底层是 ...

2008-12-18 16:26
浏览 1607
评论(0)

htmlparser 假死问题

博客分类：

htmlparser

htmlparser 假死问题

前几天，在用htmlparser分析页面时,遇到一个郁闷的问题,在爬取得时候，htmlparser停住啦,当时没报任何的错误。我以为多等一会它就会报一个异常啦，结果，等了一个上午，还是停在那里不动。实在等不下去啦，直接看它的源代码，原来是获取数据的时候，获取到一半，停在那里，我找不到在哪里修改它的代码，结果是我不用htmlparser进行连接下载数据，而htmlparser单纯是用于分析页面。我链接那部分是用 url1 = new URL(url); URLConnection urlcon = url1.openConnection(); ...

2008-12-18 10:10
浏览 2128
评论(0)

2008年12月15日属于我的分手日

今天，两个字-“好吧”。终于结束了不属于我的爱情，有点痛痛的，有点轻松的，有点嘶嘶点，有点，，，听歌吧。是忘记的时候啦～

2008-12-15 12:38
浏览 896
评论(0)

修改id自动增加

博客分类：

数据库

Go

create table temp_table ( id int, name varchar(20) ) insert into temp_table values(3,'1') insert into temp_table values(4,'1') insert into temp_table values(5,'1') select * into #temp from temp_table go alter ...

2008-12-14 01:03
浏览 1256
评论(0)

基于深网络的垂直搜索引擎蜘蛛的基本解决方案

博客分类：

java

搜索引擎网络应用算法 IE 百度

http://hi.baidu.com/anspider/blog/item/0718fa0004330605728da522.html 基于深网络的垂直搜索引擎蜘蛛的基本解决方案最初接触搜索引擎是2年前，一位北京的朋友（对我帮助很大）让我帮他设计了一只抓网页的蜘蛛。当时我头一次听说蜘蛛，半天没有回过神来，心想：蜘蛛？莫非是蜘蛛机器人？后来我还知道，蜘蛛也被人称为爬虫，正规的名称叫Spider。第一次写蜘蛛的程序时，阅读了很多规范，同时找到了几个c#代码的（c#是朋友要求的语言）免费的Html解析的库（我记得有一个是解 ...

2008-12-13 16:50
浏览 2212
评论(2)

恢复单个mdf文件

博客分类：

数据库

SQL SQL Server Microsoft C C++

在做仓库作业的时候，遇到了一些比较特殊的情况，sql server2005中没有传统sql server附带的两个实例数据库，pubs和northwnd，在附加sql server2k的mdf的时候遇到了一些麻烦，系统会提示ldf文件丢失，通常回复单个mdf文件有以下几种办法： 2k：对SQL中的日志文件不慎删除后，附加MDF文件，提示LDF文件有问题，导致MDF无法附加的情况，错误提示是未能打开新数据库 'smartcard'。CREATE DATABASE将终止日志文件 'C:\Program Files\Microsoft SQL Serve ...

2008-12-13 14:29
浏览 2308
评论(0)

htmlparser 文件不存在

博客分类：

htmlparser

htmlparser 文件不存在

今天用htmlparser分析了一些网页，在过程中，有一个网页不能分析，htmlparser内部抛出异常，终止了程序。这个时候，必须在自个写得程序再一次抛出异常，这样就不会出现程序被终止的现象啦。一般情况下，它会抛出ParserException,IOException异常。所以在外壳加上： try{ //自个程序...... }catch(ParserException e){ }catch(IOException e){ }

2008-12-12 16:11
浏览 1075
评论(0)

日期数据的定制格式

博客分类：

java

日期数据的定制格式

SimpleDateFormat bartDateFormat = new SimpleDateFormat("yyyy-MM-dd"); Date date = new Date(); System.out.println(bartDateFormat.format(date));

2008-12-11 16:25
浏览 881
评论(0)

算出有多少页

博客分类：

java

算出有多少页

public void totalpage(String total){ int pagecount = new Integer(total); int newpagecount = pagecount%10; if(newpagecount == 0){ pagecount = pagecount/10; }else{ pagecount = pagecount/10; pagecount += 1; } ...

2008-12-11 15:55
浏览 967
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HttpURLConnection读取html文件

异地和本地Java RMI调用

优酷为什么封百度？

htmlparser 编码问题

一种快速高效的文本分类方法（二）

一种快速高效的文本分类方法（一）

htmlparser如何连接网络

htmlparser 假死问题

2008年12月15日属于我的分手日

修改id自动增加

基于深网络的垂直搜索引擎蜘蛛的基本解决方案

恢复单个mdf文件

htmlparser 文件不存在

日期数据的定制格式

算出有多少页

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>