项目目标
  众推,开源版的头条!
  基于hadoop思维的分布式网络爬虫。
  目前已经将fourinone、jeesite、webmagic整合进来,并且进一步进行改进。想终做成一个基于设计器的动态可配置的分布式爬虫系统,这个是第一阶段的目标。
  项目目前情况
  目前项目进展情况:
  1、sourceer,可以接入多种数据源,接口已经定义(加入builder封装,可以使用简单爬虫)。
  2、web架构工程(web工程上传并测试成功,权限、基础框架改造,导入等已经录成视频,删除activiti,删除cms部分)。
  3、分布式框架研究(分布式项目分包,添加部分注释,测试单机单工人爬取)。
  4、插件化整合。
  5、文章等各种去重方式及算法(目前已实现bloomfilter,指纹算法去重,已经实现simhash,分词算法(ansj))。
  6、分类器测试(bayes,文本分类单机测试成功)。
  项目地址:
  (分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler
  (去重过滤器)https://git.oschina.net/zongtui/zongtui-filter
  (文本分类器)https://git.oschina.net/zongtui/zongtui-classifier
  (文档目录)https://git.oschina.net/zongtui/zongtui-doc
  项目界面:
  启动jetty,目前皮肤暂时还未换。

  总结
  目前项目正在进一步完善当中,希望能得到你更多的意见!