博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
全站爬虫项目一阶段总结
阅读量:7038 次
发布时间:2019-06-28

本文共 390 字,大约阅读时间需要 1 分钟。

这段时间给公司做全站爬虫。一开始在公司框架内开发,耗费了大量的时间,仍然效果不好——因为受限于框架本身的逻辑,难以实现复杂的业务。

后来,转向了scrapy,并将几个关键的服务,比如链接过滤、列表页识别和过滤,做成单独的模块或者服务。

虽然现在效果仍然不理想,但已经是一个可用、可调优的框架,在几个关键环节,都实现了脱耦合,可以轻易的扩展。一些常用代码,也通过scrapy 得到了充分的复用。

剩下的任务是

  1. 进一步提高列表页的识别效率,可以考虑使用splash配合CNN的方法。

  2. 判断页面活跃度目前使用的方法速度太慢,还是要考虑重写。

  3. 任务队列的伪随机机制也还没有完成

在目前的框架下,这些都已经是可以期待的目标。

但仍有一些更艰巨的任务,比如实现框架的可伸缩性,需要向docker迁移;更精细的监控和控制,需要hadoop化。这些可能都需要在scrapy-cluster下进行。

转载地址:http://cffal.baihongyu.com/

你可能感兴趣的文章
iphone:类似path的抽屉式导航效果的demo总结
查看>>
[cocos2dx开发技巧2]工具CocosBuilder的使用--集成
查看>>
Win8: Share
查看>>
MyEclipse 简单快捷键
查看>>
获得屏幕大小
查看>>
.Net中常用的重要的第三方组件
查看>>
在C# WinForm程序中创建控件数组及相应的事件处理
查看>>
自定义Microsoft Visual Studio 代码模板,增加公司和个人信息
查看>>
GeoServer 常见问题总结
查看>>
最近一段时间开发客户端app的感悟
查看>>
Python网络编程(3)——SocketServer模块与简单并发服务器
查看>>
SVN使用教程总结
查看>>
SqlServer中quotename用法与实例
查看>>
UBUNTU中如何获得root权限
查看>>
Adobe RIA
查看>>
简单两步让博客园支持手机端显示
查看>>
AngularJS in Action读书笔记3——走近Services
查看>>
Atitit. 最佳实践 QA----减少cpu占有率--cpu占用太高怎么办
查看>>
快乐的JS正则表达式(三)
查看>>
JMeter学习(三十四)测试报告优化
查看>>