博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nutch数据集的目录具体内容
阅读量:6953 次
发布时间:2019-06-27

本文共 556 字,大约阅读时间需要 1 分钟。

  hot3.png

Nutch数据集的目录具体内容

165723_90PZ_870039.jpg

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

165758_mfp4_870039.jpg

Crawldb内容主要包括,抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

165826_lIFX_870039.jpg

#查看segments

一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list),然后Fetcher类通过预取列表中的URL抓取这些网页并索引,然后将其存入段中。

#查看segments目录

165855_fh64_870039.jpg

Content:保存的是 fetcher 所抓取回来的源内容,html脚本

165933_4Z3c_870039.jpg

170003_6Cis_870039.jpg

Crawl_fetch:包含每个抓取页面的状态

170036_wpAk_870039.jpg

Crawl_generate:包含所抓取的网址列表

170105_8TvC_870039.jpg

Crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库

170153_OMXf_870039.jpg

Parse_data: 包含每个页面的外部链接和元数据

170250_0hNf_870039.jpg

Parse_text: 包含每个抓取页面的解析文本

170315_nTXM_870039.jpg

 

转载于:https://my.oschina.net/HIJAY/blog/223911

你可能感兴趣的文章
windows 下最快搭建svn服务器方法
查看>>
获取android系统外置存储卡路径的方法
查看>>
mysql 链接错误
查看>>
php 数组字符串搜索array_search技巧
查看>>
hive中的NULL
查看>>
进程死锁(银行家算法)
查看>>
FragmentTransaction add 和 replace 完全解析
查看>>
1. ASIHttpRequest-创建和执行request
查看>>
mysql中某张表修改较大时的处理
查看>>
如何退出telnet界面
查看>>
nginx+多个tomcat配置
查看>>
sublime实用插件-持续更新
查看>>
DotImage使用教程:从数据库中读写图像
查看>>
行业虚拟化发展趋势——“瑞友杯”虚拟化征文
查看>>
XY问题在开发中的体现
查看>>
更换或加装网卡的eth编号顺序配置
查看>>
Executors下面的线程池实现
查看>>
锐捷CCNA系列(五) 交换机配置模式切换
查看>>
squid命中率监控软件安装
查看>>
备份 Outlook 2010 中接收到的邮件和联系人
查看>>