`
rcyl2003
  • 浏览: 237327 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论
文章列表
全文检索原理全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的 ...
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能。 而帮助你通过整个互联网快速查找到目标信息的就是越来越被重视的搜索引擎。有关搜索引擎的技术资料网络上已经很多,关于搜索引擎经济的多方面报道各大媒体也都已经铺天盖地,因此在这里小编并不想过多的谈论这些方 ...
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一个重要的且是免费的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网页数据,并在后台按相关条件进行索引;另一方面,各大网站为了能让自己的内容更多的通过搜索引擎向网民展示,都开始对网站结构进行重大调整 ...
import java.awt.*;import java.net.*;import java.io.*;import java.lang.*;import java.util.*;
这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 ...
远看厦门像天堂,近看厦门像银行; 到了厦门像牢房,不如回家放牛羊。 个个都说厦门好,人人都往厦门跑; 厦门挣钱厦门花,哪有钞票寄回家。 都说这里工资高,害我没钱买牙膏; 都说这里伙食好,青菜里面加青草。 都说这里环境好,蟑螂蚂蚁四处跑; 都说这里领班帅,个个平头像锅盖。 年年打工年年愁,天天加班像只猴; 加班加点无报酬,天天挨骂无理由。 碰见老板低著头,发了工资摇摇头; 到了月尾就发愁,不知何年才出头。 思明的美女,湖里的汉,步行街的痞子满街串, 海沧的痴,同安的怨, 会展中心的情侣石龙转。 轮渡的花,前埔的草,厦大的和尚满街跑。 鼓浪的帅哥,杏林的狼,翔安到处是流氓 
大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器 原文:Bloom Filters in C#http://www.devsource.com/article2/0,1895,2113495,00.asp想像一下.如果你有一个非常大的无序的数据(url连接) 并且你要保证同样的一条连接不会在其它地方再次出现你实时的收集哪些数据,你没有办法来预防两个相同的url出现,再不断增加的数据当中. 当这些数据是少的时候你可以轻松的创建一个list(dictonary or hashtable 或者你自已的数据结构)然后遍历它们,看它是不是已经存在在这个list当中,遍历所花的时间 ...
[1]好好规划自己的路,不要跟着感觉走!根据个人的理想决策安排,绝大部分人并不指望成为什么院士或教授,而是希望活得滋润一些,爽一些。那么,就需要慎重安排自己的轨迹。从哪个行业入手,逐渐对该行业深入了解, ...
//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer();  //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(int wordLength);  //字符串切分,常用于客户的关键字输入 analyzer.segment(String text, String separator);   词典维护API(静态方法):  //增加一个新词典,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料) MMAnaly ...
lucene in action征服Ajax+Lucenelucene2.0 
  StringBuffer buffer = new StringBuffer();for(int i=0;i<50000;i++)...{    buffer.append("hello");
作者:沙雨  编者按:这是一篇精彩的编程教学文章,不但详细地剖析了搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。  ...
Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。   WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。 WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作 ...
问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢? 先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用WebClient/WebRequest(甚至OpenFileDialog都可以)打开Url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下: string BoardStream;//下载内容存入此变量 Uri url = new Uri( “http://www.163.com” );//将下载地址转换为Uri类型 HttpWebRequest requestPage = ( HttpW ...
阮一峰 发表于 2007年04月 3日 | 分类:首页 -> 档案 -> IT技术 搜索引擎按照功能可以分为如下几部分: 1. 巡视软件(robot/spider/crawler) 作用:自动从网上抓取信息。 2. 页面存储器 作用:将抓取回来的信息存储起来,也就是数据库。 3. 分析索引器 作用:对抓取回来的信息进行分析,建立索引。 4. 查询器 作用:根据用户的提问在索引库中进行查询,进行文档与提问相关性评价,并对将输出的结果进行排序。 在查询之前,查询器需要首先对用户输入的数据进行特征化表示,抽取其中的主题概念。 5. 用户接口 作用:提供用户与搜索引擎之间的界面, ...
Global site tag (gtag.js) - Google Analytics