linkdb-inverted link map - 莱布尼兹 - ITeye博客

`

leibnitz

浏览: 285174 次
性别:
来自: 广州

最近访客更多访客>>

eternal1025

bneliao

adapterofcoms

caipeijun666

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jpsb： ...
为什么需要分布式？
leibnitz： hi guy, this is used as develo ...
compile hadoop-2.5.x on OS X(macbook)
string2020：撸主真土豪,在苹果里面玩大数据.
compile hadoop-2.5.x on OS X(macbook)
youngliu_liu：怎样运行这个脚本啊？？大牛，我刚进入搜索引擎行业，希望你能不吝 ...
nutch 数据增量更新
leibnitz： also, there is a similar bug ...
２。hbase CRUD--Lease in hbase

linkdb-inverted link map

博客分类：

nutch

阅读更多

任务是：inverted link map

此过程也是比较简单，不过代码好像有点问题。。

1.inverted job

input：将segments下所有segs的parse_data作为输入。<url ,ParseData>

M：将<fromUrl,toUrls> --> <toUrl,fromUrl> list，即倒相了。

C＆R：限制同一target url的inlinks数。

output format：MapFileOutputFormat。<url,inlinks>

[2.merged job]

M：<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并。

R：同上

NOTE ：

发现在inverted job中对norm,filter设置进行了断言：

if(!exists(linkdb)){job.set(norm,true); ...}

觉得代码有点问题，作者愿意应该是要么在inverted job中执行，要么在merged job中执行，所以应该改为：

if( !exsits(linkdb + "/current")){xxxx}

因为后面还有断言是否存在current而决择是否进行merged.

------------------

output resutls:

http://163caipiao.blog.163.com/    Inlinks:
fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
fromUrl: http://cp.163.com/ anchor: 网易博客
fromUrl: http://caipiao.163.com/ anchor: 网易博客

http://188vip.vip.blog.163.com    Inlinks:                                   ／／inlinks标识以下所有是inverted urls
fromUrl: http://vipmail.163.com/ anchor: VIP官方博客           ／／打开此page，会发现其中有"vip官方博客"连接到上面哪个

.....

分享到：

从hdfs设计思想到应用 | 抓取流程－小结

2011-07-14 17:47
浏览 1049
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

LinkDB-开源: LinkDB是一个Link DataDase。这意味着LinkDB是一个集中式系统，用于管理链接，记录访问链接的人员，方式和时间，并最终为链接提供服务，这些链接的资源发生了很大的变化或需要记住很长的时间。

Link Database-开源: - **LinkDB.cfg**：可能是配置文件，包含了用户设置和程序的一些默认参数。 - **Main.dcu, CommonRutines.dcu, Alarm.dcu, About.dcu**：这些是Delphi编译后的组件单元文件，分别对应主界面、公共函数、提醒功能和...

nutch-param-set: LinkDb 主要用于存储网页链接信息，是爬虫系统中重要的数据结构之一。 **参数设置：** ```java String[] params = new String[2]; params[0] = "crawldb/linkdb"; params[1] = "crawldb/fetch"; ``` - `crawldb/...

Nutch模块命令: `bin/nutch readlinkdb <linkdb> (-stats | -dump <out_dir> | -url )` - `<linkdb>`: 链接数据库的路径。 - 功能与 ReadDb 类似，但针对链接数据库。 **配置文件** Nutch 的配置主要通过以下文件完成： - `...

开发基于 Nutch 的集群式搜索引擎: 由于Nutch构建在Hadoop之上，所有的数据库操作（CrawlDB, LinkDB, SegmentsDB 和 IndexDB）都通过调用MapReduce函数来实现，这为Nutch提供了强大的扩展性和分布式处理能力。 #### 实际应用示例为了更好地理解...

Matlab数据库编程指南-Godman.pdf: 例如，`LinkDB(DB_path, DB_sourcename, 1)`。 #### 二、建立链接对象配置好数据源之后，接下来需要在Matlab中建立数据库链接对象。这一步骤可以通过`database`函数来实现。 - **调用格式**：`conna = database...

search-1047:一个基于Nutch和Hadoop简单搜索引擎: 文本预处理作为PageRank的输入SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format).OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个...

把多次用nutch_crawl获得的所有目录合并在一起: 在Nutch的爬取过程中，每次`nutch crawl`操作都会生成一个新的目录，包含爬取的网页数据、链接数据库（linkdb）、网页数据库（crawldb）和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时，可以使用`...

搭建nutch web开发环境: bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**：在Nutch源代码根目录下，运行以下命令启动Web界面： ``` bin/nutch solrindex ...

Nutch入门.rar: 5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 ...

nutch入门实例教程.pdf: - **Linkdb**: 存储网页链接及其相关信息的数据库。 - **Segments**: 存储爬虫抓取结果的分段文件夹。 - **Index**: 索引数据的存储结构。 #### 7. Nutch 分布式文件系统 - **概述**: Nutch 使用分布式文件系统来...

nutch 初学文档教材: 5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35...

Matlab数据库编程指南-Godman.docx: - 也可以通过修改注册表，利用自编函数如`LinkDB`自动配置数据源。 2. **建立链接对象**： - 使用`database`函数创建数据库链接，例如`conna = database('datasourcename', 'username', 'password')`，其中`...

sigmod2011全部论文(3): U-MAP: A System for Usage-Based Schema Matching and Mapping (Page 1287) Hazem Elmeleegy (AT&T Labs - Research) Jaewoo Lee (Purdue University) El Kindi Rezig (Purdue University) Mourad Ouzzani (Purdue ...

javaBean分页: - `Linkdb db`：数据库连接操作对象。 - **方法** - `void setPages(int n)`：设置每页显示的记录数。 - `ResultSet setQuerysql(String str_table, String str_where, String httpfile, String pages) throws ...

Nutch 1.2源码阅读: Nutch的工作流程主要包括以下几个阶段：注入（Injector）、生成抓取URL（Generator）、网页抓取（Fetcher）、网页解析（ParseSegment）、数据库更新（CrawlDb）、链接数据库处理（LinkDb）以及索引构建（Indexer）。...

nutch使用文档: Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库，用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...

Global site tag (gtag.js) - Google Analytics