任务是:inverted link map
此过程也是比较简单,不过代码好像有点问题。。
1.inverted job
input:将segments下所有segs的parse_data作为输入。<url ,ParseData>
M:将<fromUrl,toUrls> --> <toUrl,fromUrl> list,即倒相了。
C&R:限制同一target url的inlinks数。
output format:MapFileOutputFormat。<url,inlinks>
[2.merged job]
M:<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并 。
R:同上
NOTE
:
发现在inverted job中对norm,filter设置进行了断言:
if(!exists(linkdb)){job.set(norm,true); ...}
觉得代码有点问题,作者愿意应该是要么在inverted job中执行,要么 在merged job中执行,所以应该改为:
if( !exsits(linkdb + "/current")){xxxx}
因为后面还有断言是否存在current而决择 是否进行merged.
------------------
output resutls:
http://163caipiao.blog.163.com/ Inlinks:
fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
fromUrl: http://cp.163.com/ anchor: 网易博客
fromUrl: http://caipiao.163.com/ anchor: 网易博客
http://188vip.vip.blog.163.com Inlinks: //inlinks标识以下所有是inverted urls
fromUrl: http://vipmail.163.com/ anchor: VIP官方博客 //打开此page,会发现其中有"vip官方博客"连接到上面哪个
.....
分享到:
相关推荐
LinkDB是一个Link DataDase。 这意味着LinkDB是一个集中式系统,用于管理链接,记录访问链接的人员,方式和时间,并最终为链接提供服务,这些链接的资源发生了很大的变化或需要记住很长的时间。
- **LinkDB.cfg**:可能是配置文件,包含了用户设置和程序的一些默认参数。 - **Main.dcu, CommonRutines.dcu, Alarm.dcu, About.dcu**:这些是Delphi编译后的组件单元文件,分别对应主界面、公共函数、提醒功能和...
LinkDb 主要用于存储网页链接信息,是爬虫系统中重要的数据结构之一。 **参数设置:** ```java String[] params = new String[2]; params[0] = "crawldb/linkdb"; params[1] = "crawldb/fetch"; ``` - `crawldb/...
`bin/nutch readlinkdb <linkdb> (-stats | -dump <out_dir> | -url )` - `<linkdb>`: 链接数据库的路径。 - 功能与 ReadDb 类似,但针对链接数据库。 **配置文件** Nutch 的配置主要通过以下文件完成: - `...
由于Nutch构建在Hadoop之上,所有的数据库操作(CrawlDB, LinkDB, SegmentsDB 和 IndexDB)都通过调用MapReduce函数来实现,这为Nutch提供了强大的扩展性和分布式处理能力。 #### 实际应用示例 为了更好地理解...
例如,`LinkDB(DB_path, DB_sourcename, 1)`。 #### 二、建立链接对象 配置好数据源之后,接下来需要在Matlab中建立数据库链接对象。这一步骤可以通过`database`函数来实现。 - **调用格式**:`conna = database...
文本预处理作为PageRank的输入SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format).OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个...
在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...
bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**: 在Nutch源代码根目录下,运行以下命令启动Web界面: ``` bin/nutch solrindex ...
5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 ...
- **Linkdb**: 存储网页链接及其相关信息的数据库。 - **Segments**: 存储爬虫抓取结果的分段文件夹。 - **Index**: 索引数据的存储结构。 #### 7. Nutch 分布式文件系统 - **概述**: Nutch 使用分布式文件系统来...
5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35...
- 也可以通过修改注册表,利用自编函数如`LinkDB`自动配置数据源。 2. **建立链接对象**: - 使用`database`函数创建数据库链接,例如`conna = database('datasourcename', 'username', 'password')`,其中`...
U-MAP: A System for Usage-Based Schema Matching and Mapping (Page 1287) Hazem Elmeleegy (AT&T Labs - Research) Jaewoo Lee (Purdue University) El Kindi Rezig (Purdue University) Mourad Ouzzani (Purdue ...
- `Linkdb db`:数据库连接操作对象。 - **方法** - `void setPages(int n)`:设置每页显示的记录数。 - `ResultSet setQuerysql(String str_table, String str_where, String httpfile, String pages) throws ...
Nutch的工作流程主要包括以下几个阶段:注入(Injector)、生成抓取URL(Generator)、网页抓取(Fetcher)、网页解析(ParseSegment)、数据库更新(CrawlDb)、链接数据库处理(LinkDb)以及索引构建(Indexer)。...
Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...