博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
nutch不适合做垂直爬虫
阅读量:6714 次
发布时间:2019-06-25

本文共 349 字,大约阅读时间需要 1 分钟。

  hot3.png

告诫将要用nutch做爬虫的同行,如果你要用nutch做垂直爬虫,那么早点放弃吧,换成别的爬虫框架,nutch真不适合做什么垂直爬虫,nutch适合用来做搜索引擎型的爬虫,搜索引擎型爬虫就注定了是爬全网,不关注某些字段,而垂直爬虫正好相反,关注某些页面的字段。如果你要将nutch变成爬页面的固定字段,那么你将付出很大的努力。如果你把这些经历放到一个垂直爬虫框架上,那么你将解决你所有的爬虫问题。

不要到群里问什么大神,他们给不了你合适的答案,你问nutch适合做精爬取吗?有很多人会说适合,如果听从他们的意见,那么你将付出成倍的代价去搞nutch,最后发现,nutch搞不下去了,换成别的爬虫工具,两天搞定。

 

转载于:https://my.oschina.net/cjun/blog/407948

你可能感兴趣的文章
Home Assistant系列 -- 自动语音播报天气
查看>>
Hyberledger-Fabric 1.00 RPC学习(1)
查看>>
SDNU 1450.报时助手
查看>>
BZOJ 4144 Dijkstra+Kruskal+倍增LCA
查看>>
阻塞与非阻塞,同步与异步
查看>>
HTML段落自动换行的样式设置
查看>>
Android实现左右滑动指引效果
查看>>
html里frame导航框架实现方法
查看>>
shell编程系列5--数学运算
查看>>
在 UWP 应用中创建、使用、调试 App Service (应用服务)
查看>>
Active MQ C#实现
查看>>
C#实现秒表程序
查看>>
cJSON 使用笔记
查看>>
CF1163E Magical Permutation
查看>>
BroadcastReceiver
查看>>
redis备份实操
查看>>
重要更新-Word 2003查找替换最后一个实例的第四种方法
查看>>
实现大屏幕全国监控各地流量和负载质量
查看>>
高性能HTTP加速器Varnish(安装配置篇)
查看>>
如何取消OneNote的粘贴来源地址
查看>>