基于Java的分布式爬虫
作者:网络转载 发布时间:[ 2015/4/21 13:25:48 ] 推荐标签:Java 爬虫 分布式
项目目标
众推,开源版的头条!
基于hadoop思维的分布式网络爬虫。
目前已经将fourinone、jeesite、webmagic整合进来,并且进一步进行改进。想终做成一个基于设计器的动态可配置的分布式爬虫系统,这个是第一阶段的目标。
项目目前情况
目前项目进展情况:
1、sourceer,可以接入多种数据源,接口已经定义(加入builder封装,可以使用简单爬虫)。
2、web架构工程(web工程上传并测试成功,权限、基础框架改造,导入等已经录成视频,删除activiti,删除cms部分)。
3、分布式框架研究(分布式项目分包,添加部分注释,测试单机单工人爬取)。
4、插件化整合。
5、文章等各种去重方式及算法(目前已实现bloomfilter,指纹算法去重,已经实现simhash,分词算法(ansj))。
6、分类器测试(bayes,文本分类单机测试成功)。
项目地址:
(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler
(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter
(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier
(文档目录)https://git.oschina.net/zongtui/zongtui-doc
项目界面:
启动jetty,目前皮肤暂时还未换。

总结
目前项目正在进一步完善当中,希望能得到你更多的意见!
本文内容不用于商业目的,如涉及知识产权问题,请权利人联系SPASVO小编(021-61079698-8054),我们将立即处理,马上删除。
相关推荐
Java性能测试有哪些不为众人所知的原则?Java设计模式??装饰者模式谈谈Java中遍历Map的几种方法Java Web入门必知你需要理解的Java反射机制知识总结编写更好的Java单元测试的7个技巧编程常用的几种时间戳转换(java .net 数据库)适合Java开发者学习的Python入门教程Java webdriver如何获取浏览器新窗口中的元素?Java重写与重载(区别与用途)Java变量的分类与初始化JavaScript有这几种测试分类Java有哪四个核心技术?给 Java开发者的10个大数据工具和框架Java中几个常用设计模式汇总java生态圈常用技术框架、开源中间件,系统架构及经典案例等

sales@spasvo.com