在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。
我对 Mohr 的发言整理一下。主要有以下几点:
主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
- Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
- Nutch 可以修剪内容,或者对内容格式进行转换。
- Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
- Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
- Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。
暂时还没有看到 Doug Cutting 对二者比较的评价.
Heritrix 的架构示意图:
Nutch 的架构示意图:
分享到:
相关推荐
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑
安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...
Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...
很好用,很强大,直接把它导入到eclipse中,运行即可, 在tomacat中运行http://localhost:8080
NULL 博文链接:https://betty.iteye.com/blog/452830
基于_Heritrix_网络爬虫算法的研究与应用
基于Heritrix的主题网络爬虫设计与实现,论文
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制
Heritrix网络爬虫开发包,爬取资源必备开发包。
基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
heritrix-1.14.4爬虫框架及源码
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)第10章