Nutch数据集的目录具体内容-白红宇

Nutch数据集的目录具体内容

阅读量：6953 次

发布时间：2019-06-27

本文共 556 字，大约阅读时间需要 1 分钟。

Nutch数据集的目录具体内容

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

Crawldb内容主要包括，抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

#查看segments

一次爬行会产生很多个段(segment)，段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list)，然后Fetcher类通过预取列表中的URL抓取这些网页并索引，然后将其存入段中。

#查看segments目录

Content：保存的是 fetcher 所抓取回来的源内容，html脚本

Crawl_fetch：包含每个抓取页面的状态

Crawl_generate:包含所抓取的网址列表

Crawl_parse: 包含网址的外部链接地址，用于更新crawldb数据库

Parse_data: 包含每个页面的外部链接和元数据

Parse_text: 包含每个抓取页面的解析文本

转载于:https://my.oschina.net/HIJAY/blog/223911

你可能感兴趣的文章