- 浏览: 61871 次
- 性别:
- 来自: 上海
最新评论
-
daizhenze:
我的邮箱daizhenze@126.com
推荐新书《搜索引擎零距离--基于Ruby+Java的搜索引擎原理与实现》 -
daizhenze:
能把SbaleCC的定义代码和语法分析代码发上来吗,谢谢!
推荐新书《搜索引擎零距离--基于Ruby+Java的搜索引擎原理与实现》 -
webcgo:
不是叫IRS吗,与IRPL一样意思吧
时代变迁 -
webcgo:
IRPL开源吗,我们可以使用不?
时代变迁 -
yuankai:
LZ卖书的?
今天看了一眼我的书架,发现清华出版社出的书真是多啊
文章列表
https://github.com/jankotek/JDBM3
每秒100万写操作, 1000万读操作
JDBM provides TreeMap, HashMap and other collections backed up by disk storage.
Now you can handle billions of items without ever running out of memory.
JDBM is probably the fastest and the simpliest pure Java database.
JDBM is t ...
CRF简介
C
onditio
nal
R
andom
F
ield
:条件随机场,一种机器学习技术(模型)
CRF
由
John Lafferty
最早用于
NLP
技术领域,其在
NLP
技术领域中主要用于文本标注,并有多种应用场景,例如:
分词(标注字的词位信息,由字构词)
词性标注(标注分词的词性,例如:名词,动词,助词)
命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)
https://chrome.google.com/webstore/detail/chklaanhfefbnpoihckbnefhakgolnmc
地址: http://www.rayeen.com/viewthread.php?tid=78
下载:http://download.rayeen.com/stable/BidderWizard-3.3rc1.rar
新增:增加一次调价功能 实时快速 准确判断排名的合理价格
查看前台实际排名功能(待完善)
上升 下调 数据统计显示功能(待完善)
下版修正说明:
去除登录自动关闭问题增加多线程调价功能 提升调价速度
增加验证码识别率
修正软件版面设计
补充说明:
对于试用过期的用户,统一增加两天的使用期限 体验新版的调价速度(请联系 ...
- 2009-08-23 11:47
- 浏览 662
- 评论(0)
使用BDB来存储已爬地址,用int status的各个不同的位,来表示不同的访问状态:
访问过;保存过;修改过 等等
package com.rayeen.spider.vertical.data;
import java.io.File;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import org.apache.hadoop.io.MD5Hash;
import org.apache.log4j.Logger;
import com.sleepycat.j ...
- 2009-06-24 23:06
- 浏览 1661
- 评论(0)
3.3 词法分析和语法分析[size=large][/size]
为了理解IRS语言编译器的实现原理,我们首先要了解关于词法分析和语法分析的知识。
3.3.1 定义与简介
所谓词法分析,就是把文本中的内容按照一定规则识别为一系列的词语单元。例如,假设我们规定“连续的一串字符叫做一个WORD,句号叫做DOT”,那么,序列I love this game就能够被识别为WORD WORD WORD WORD DOT。
所谓语法分析,就是按照一定的规则把多个连读的个词语单元识别为一系列语义单元。例如,假设我们规定“连续的WORD 跟上一个DOT 叫做一个SENTENSE(句子)”,那么上例中 ...
- 2009-06-23 14:40
- 浏览 2492
- 评论(0)
在chinapub上搜“搜索引擎”,按照销量排序,《搜索引擎零距离》居然是第一 ...
http://www.china-pub.com/s/?&displaytype=1&key1=%cb%d1%cb%f7%d2%fd%c7%e6&type=&pz=1&ordertype=4
- 2009-06-23 14:13
- 浏览 1126
- 评论(0)
3.1.7 方法调用
例子:
foo.bar()
foo.bar
bar()
print "hello world\n"
print
语法:
[表达式 .] 标识符 [( 表达式 ... [* [表达式]] )]
若未指定被调用方法的对象,则调用 self 的方法。
方法名中除了通常的标识符以外,还可以添加“? ...
- 2009-06-23 08:59
- 浏览 1481
- 评论(0)
3.1.4 类和方法的定义
1. 类定义
例子:
class Foo < Super
def test
:
end
:
end
语法:
class 标识符 [< superclass ]
表达式 ..
end
该语法用来定义类的内容。类名是以大写字母开头的标识符。
类定义实际上就是把类赋值给由类名指定的常数(在 Ruby 中,类也是一个对象,它是 Class 类的实例)。
若某个类已经被定义过,此时又用相同的类名进行类定义的话,就意味着对原有的类的定义进行追加。例子:
class Foo < Array
def ...
- 2009-06-22 16:20
- 浏览 1092
- 评论(0)
IRS语言运行于Java编写的虚拟机上,本书把运行IRS语言的虚拟机称为IRVM(Information Retrieval Virtual Machine),而这个虚拟机上最为重要的一个模块就是内嵌的Ruby解析引擎,IRS语言中的Ruby脚本可以调用IRVM内部的多种功能模块,并能灵活地处理各种循环、条件判断语句,以及Ruby语言的系统函数。下面对Ruby,Java,JRuby作一简单介绍。Ruby是现在编程界讨论得正热火朝天的一种语言。这种语言功能强大而且易于使用;同时Ruby还紧密绑定到例如Ruby on Rails等web应用程序开发框架中。另一方面,在过去的十年间,Java正 ...
- 2009-06-22 09:48
- 浏览 1489
- 评论(0)
package com.rayeen.spider.vertical.util;
import java.net.URL;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedHashMap;
import java.util.List;
import j ...
- 2009-06-21 11:54
- 浏览 1632
- 评论(0)
购买地址: http://www.china-pub.com/195494
本书作者主页: http://www.rayeen.com
【内容简介】
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。.
本书的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。本书首先提出了一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系 ...
- 2009-06-04 16:39
- 浏览 1628
- 评论(2)
创业第27天,开始规划把SEO功能加进竞价助手, SEO辅助毕竟也是很有市场的,加进去并不复杂,准备花周末2天时间竞价助手的功能再完善一下。
- 2009-05-15 22:36
- 浏览 659
- 评论(0)
创业第26天,客户请吃饭,提出了几个项目的大致意向,回去之后编写了各个项目的预算与周期,提交客户审阅。
- 2009-05-15 22:27
- 浏览 542
- 评论(0)
今天看了一眼我的书架,发现清华出版社出的书真是多啊~~~~~~~~简单列一下:
《数据库实用教程》
《数据结构》
《GNU/Linux编程指南》
《C++程序设计教程》
《C++程序设计实验指导》
《Perl实例精解》
《IBM-PC汇编语言程序设计》
...