Robots.txt 协议标准

博客分类：

网络爬虫

近期有很多站长咨询，怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问，我们对《Robots.txt 协议标准》进行了翻译，希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。 Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。下面我们就来详细介绍一下它的使用方法： Robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。例如：如果您的网站地址是 ht ...

2009-02-18 15:14
浏览 1036
评论(0)

HttpURLConnection中如何设置网络超时

博客分类：

java

网络协议 SUN .net Socket JDK

Java中可以使用HttpURLConnection来请求WEB资源。 HttpURLConnection对象不能直接构造，需要通过URL.openConnection()来获得HttpURLConnection对象，示例代码如下： String szUrl = "http://www.163.com/"; URL url = new URL(szUrl); HttpURLConnection urlCon = (HttpURLConnection)url.openConnection(); HttpURLConnection是基于HTTP协议的，其底层通过sock ...

2009-02-15 22:00
浏览 1463
评论(0)

韩文网站编码方式euc-kr

博客分类：

网络爬虫

韩文网站编码方式euc-kr

今天，搞一个韩文的网站，编码方式为euc-kr，在平常其他网站都正常的情况下，今天用到这个网站上却不正常了。搞了一天，我还以为是我的代码有问题。结果是一位网友帮我解决掉。并不是我的程序有问题，而是开发工具缺少字符集包。给我一个包就行拉。

2009-02-13 23:41
浏览 3268
评论(0)

关于Java调用dll的方法

博客分类：

java

Java JNI C C#C++

Java语言本身具有跨平台性，如果通过Java调用DLL的技术方便易用，使用Java开发前台界面可以更快速，也能带来跨平台性。 Java调用C/C 写好的DLL库时，由于基本数据类型不同、使用字节序列可能有差异，所以在参数传递过程中容易出现问题。使用Java调用DLL动态链接库的方案通常有三种：JNI, Jawin, Jacob. 其中JNI(Java Native Interface)是Java语言本身提供的调用本地已编译的函数库的方法，本身具有跨平台性，可以在不同的机器上调用不同的本地库。Jawin和 Jacob都是sourceforge.net的开源项目，都是基 ...

2009-02-12 13:35
浏览 1344
评论(0)

编码转换

博客分类：

java

F#

import java.io.UnsupportedEncodingException; public class chinatoX { static StringBuffer sb1 = new StringBuffer(); public static String X(String china,String charsetName) throws UnsupportedEncodingException{ String s = String.valueOf(china); byte[] bytes = s.getBytes(ch ...

2009-02-11 13:57
浏览 964
评论(0)
分类:编程语言

去除注释去script

博客分类：

js

正则表达式

使用正则表达式及字符串操作，抽取网页信息，实现代码如下：　　/* 去script */　　public static String trimScript(String content) {　　String regEx = "<script[^>]*>[^<]+</script>";　　Pattern ... 使用正则表达式及字符� ...

2009-02-10 23:26
浏览 1834
评论(1)

Web压力测试工具

博客分类：

杂文

Web 配置管理 Linux ASP IIS

转载之:http://www.cnblogs.com/lixzhong/articles/871525.html Web压力测试是目前比较流行的话题，利用Web压力测试可以有效地测试一些Web服务器的运行状态和响应时间等等，对于Web服务器的承受力测试是个非常好的手法。Web 压力测试通常是利用一些工具，例如微软的Web Application Stress、Linux下的siege、功能全面的Web-CT等等，这些都是非常优秀的Web压力测试工具。虽然这些工具给我们测试服务器承受能力带来方便，但是它们的危害却更是惊人，甚至于利用随便一种比较全面的测试工具就可以对一台小型的 Web服务器发 ...

2009-02-10 21:44
浏览 2887
评论(3)

Java版PageRank及网站收录情况查询代码收藏

博客分类：

网络爬虫

Java Google C C#C++

在Google这个由10的100次方得名的站点中，各种评估网站的算法层出不穷，而PageRank即是其中之一。 Google的PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。 PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。通常情况下讲，原创内容越多的站点，PageRank越容易提升，反之则相对比较困难，P ...

2009-02-09 13:55
浏览 7361
评论(1)

爬虫设计要点

博客分类：

网络爬虫

搜索引擎多线程数据结构 Perl Google

http://community.csdn.net/Expert/topic/5696/5696765.xml?temp=.7289392 1】网络爬虫高度可配置性。 2】网络爬虫可以解析抓到的网页里的链接 3】网络爬虫有简单的存储配置 4】网络爬虫拥有智能的根据网页更新分析功能 5】网络爬虫的效率相当的高那么依据特征，其实也就是要求了，如何设计爬虫呢？要注意哪些步骤呢？ 1】 url 的遍历和纪录这点 larbin 做得非常的好，其实对于url的遍历是很简单的，例如： cat [what you got]| tr \" \\n | gawk '{print ...

2009-02-07 13:36
浏览 1350
评论(0)

RMI实例分析

博客分类：

java

Java 应用服务器虚拟机 Blog 框架

分布式对象技术主要是在分布式异构环境下建立应用系统框架和对象构件。在应用系统框架的支撑下，开发者可以将软件功能封装为更易管理和使用的对象，这些对象可以跨越不同的软、硬件平台进行互操作。目前，分布式互操� ...

2009-01-13 16:11
浏览 1422
评论(0)

看不到语言栏，输入法无法转换

博客分类：

电脑杂症

Office Microsoft

如果语言栏显示不出来的话，有以下几个方法：方法1：在任务栏单击鼠标右键，弹出快捷菜单，把鼠标移动到“工具栏”上，会弹出子菜单，看看其中的“语言栏”有没有被选中，如果没有选中，单击选中“语言栏”，一般会� ...

2009-01-06 18:04
浏览 2659
评论(0)

以军将加沙地带分隔成南北两块

博客分类：

杂文

活动

以军将加沙地带分隔成南北两块 2009-01-05 00:21:42　来源: 新华网　网友评论 88 条点击查看　　核心提示：以色列军队4日白天继续在加沙地带展开地面军事行动，进入加沙地带的以军已逐渐将加沙地带分隔成南北两块区域� ...

2009-01-05 09:07
浏览 766
评论(0)

【吓人】深圳宝安区民治社区惊现无头“巨蟒”

博客分类：

杂文

【吓人】深圳宝安区民治社区惊现无头“巨蟒”

2009年1月3日早上大概9点钟左右，天气寒冷，我在半梦慢时，被窗外嘈杂的人声吵醒了，走到窗口向外张望（我家住二楼），一群人正围在一个垃圾堆旁边议论这什么，我侧着脑袋仔细的看了一下，眼前的景象让我惊呆了，原来那群人正围着一条巨大的蟒蛇纷纷议论着，于是我连忙穿好衣服，跑下楼去看个究竟。等我走到跟前才发现原来是条已经死去的巨蟒，巨蟒大概有3米多长，腰身最粗处比小孩的脑袋还要大，围观的人中有人估计大概有40公斤重，巨蟒的头被整齐的切掉了，只剩下像树干一样的身体被丢在垃圾堆里。当时民治村的治安联防队员都在现场守候，不知道该怎么办，蟒蛇属于国家高级保护动物，不知道是谁处于什么目的将它杀死，也不知道 ...

2009-01-05 09:06
浏览 939
评论(0)

BerkeleyDB

博客分类：

数据库

berkeleydb

package org.qichao.database; import java.io.File; import java.io.UnsupportedEncodingException; import com.sleepycat.je.Database; import com.sleepycat.je.DatabaseConfig; import com.sleepycat.je.DatabaseEntry; import com.sleepycat.je.DatabaseException; import com.sleepycat.je.Environment; import com. ...

2009-01-04 11:07
浏览 1039
评论(0)

基于baidu抓取公司基本信息

博客分类：

java

Python

基本思想:1、输入关键字，抓取前两页的信息。符合条件的规则:title标签完全匹配关键字才进一步分析，否则抛弃。 2、进一步分析规则：历遍页面的所有标签，获取并保存没有子节点的标签，为下一步匹配信息做基础。 3、分析没有子节点的标签，比如说，公司网址，如果有标签包含公司网址的四个字，则获取它下一个标签，因为很有可能是公司网址信息。如果没有，继续拿下下一个标签，还是没有的情况，放弃追踪。源代码没写完，没通过测试，暂时不公开源代码。哪位有什么更好的建议，不妨我们讨论一下。

2008-12-30 14:04
浏览 1162
评论(2)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Robots.txt 协议标准

HttpURLConnection中如何设置网络超时

韩文网站编码方式euc-kr

关于Java调用dll的方法

编码转换

去除注释去script

Web压力测试工具

Java版PageRank及网站收录情况查询代码收藏

爬虫设计要点

RMI实例分析

看不到语言栏，输入法无法转换

以军将加沙地带分隔成南北两块

【吓人】深圳宝安区民治社区惊现无头“巨蟒”

BerkeleyDB

基于baidu抓取公司基本信息

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>