`

linkdb-inverted link map

 
阅读更多

任务是:inverted link map

此过程也是比较简单,不过代码好像有点问题。。

1.inverted job

input:将segments下所有segs的parse_data作为输入。<url ,ParseData>

M:将<fromUrl,toUrls> --> <toUrl,fromUrl> list,即倒相了。

C&R:限制同一target url的inlinks数。

output format:MapFileOutputFormat。<url,inlinks>

 


[2.merged job]

M:<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并 。

R:同上

 

NOTE

发现在inverted job中对norm,filter设置进行了断言:

if(!exists(linkdb)){job.set(norm,true); ...}

 觉得代码有点问题,作者愿意应该是要么在inverted job中执行,要么 在merged job中执行,所以应该改为:

if( !exsits(linkdb + "/current")){xxxx}

 因为后面还有断言是否存在current而决择 是否进行merged.

 

------------------

output resutls:

http://163caipiao.blog.163.com/    Inlinks:
 fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
 fromUrl: http://cp.163.com/ anchor: 网易博客
 fromUrl: http://caipiao.163.com/ anchor: 网易博客

http://188vip.vip.blog.163.com    Inlinks:                                   //inlinks标识以下所有是inverted urls
 fromUrl: http://vipmail.163.com/ anchor: VIP官方博客           //打开此page,会发现其中有"vip官方博客"连接到上面哪个

.....

 

分享到:
评论

相关推荐

    LinkDB-开源

    LinkDB是一个Link DataDase。 这意味着LinkDB是一个集中式系统,用于管理链接,记录访问链接的人员,方式和时间,并最终为链接提供服务,这些链接的资源发生了很大的变化或需要记住很长的时间。

    Link Database-开源

    - **LinkDB.cfg**:可能是配置文件,包含了用户设置和程序的一些默认参数。 - **Main.dcu, CommonRutines.dcu, Alarm.dcu, About.dcu**:这些是Delphi编译后的组件单元文件,分别对应主界面、公共函数、提醒功能和...

    nutch-param-set

    LinkDb 主要用于存储网页链接信息,是爬虫系统中重要的数据结构之一。 **参数设置:** ```java String[] params = new String[2]; params[0] = "crawldb/linkdb"; params[1] = "crawldb/fetch"; ``` - `crawldb/...

    Nutch模块命令

    `bin/nutch readlinkdb &lt;linkdb&gt; (-stats | -dump &lt;out_dir&gt; | -url )` - `&lt;linkdb&gt;`: 链接数据库的路径。 - 功能与 ReadDb 类似,但针对链接数据库。 **配置文件** Nutch 的配置主要通过以下文件完成: - `...

    开发基于 Nutch 的集群式搜索引擎

    由于Nutch构建在Hadoop之上,所有的数据库操作(CrawlDB, LinkDB, SegmentsDB 和 IndexDB)都通过调用MapReduce函数来实现,这为Nutch提供了强大的扩展性和分布式处理能力。 #### 实际应用示例 为了更好地理解...

    Matlab数据库编程指南-Godman.pdf

    例如,`LinkDB(DB_path, DB_sourcename, 1)`。 #### 二、建立链接对象 配置好数据源之后,接下来需要在Matlab中建立数据库链接对象。这一步骤可以通过`database`函数来实现。 - **调用格式**:`conna = database...

    search-1047:一个基于Nutch和Hadoop简单搜索引擎

    文本预处理作为PageRank的输入SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format).OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个...

    把多次用nutch_crawl获得的所有目录合并在一起

    在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...

    搭建nutch web开发环境

    bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**: 在Nutch源代码根目录下,运行以下命令启动Web界面: ``` bin/nutch solrindex ...

    Nutch入门.rar

    5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 ...

    nutch入门实例教程.pdf

    - **Linkdb**: 存储网页链接及其相关信息的数据库。 - **Segments**: 存储爬虫抓取结果的分段文件夹。 - **Index**: 索引数据的存储结构。 #### 7. Nutch 分布式文件系统 - **概述**: Nutch 使用分布式文件系统来...

    nutch 初学文档教材

    5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35...

    Matlab数据库编程指南-Godman.docx

    - 也可以通过修改注册表,利用自编函数如`LinkDB`自动配置数据源。 2. **建立链接对象**: - 使用`database`函数创建数据库链接,例如`conna = database('datasourcename', 'username', 'password')`,其中`...

    sigmod2011全部论文(3)

    U-MAP: A System for Usage-Based Schema Matching and Mapping (Page 1287) Hazem Elmeleegy (AT&T Labs - Research) Jaewoo Lee (Purdue University) El Kindi Rezig (Purdue University) Mourad Ouzzani (Purdue ...

    javaBean分页

    - `Linkdb db`:数据库连接操作对象。 - **方法** - `void setPages(int n)`:设置每页显示的记录数。 - `ResultSet setQuerysql(String str_table, String str_where, String httpfile, String pages) throws ...

    Nutch 1.2源码阅读

    Nutch的工作流程主要包括以下几个阶段:注入(Injector)、生成抓取URL(Generator)、网页抓取(Fetcher)、网页解析(ParseSegment)、数据库更新(CrawlDb)、链接数据库处理(LinkDb)以及索引构建(Indexer)。...

    nutch使用文档

    Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...

Global site tag (gtag.js) - Google Analytics