军犬采集首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 解决方案 > 正文

门户网站数据对接-解决案例

发布日期:2008-01-13

 

第一部分:项目需求

第二部分:项目解读

  根据我们对项目需求进行分析,建议此系统应至少包含以下三个重要的模块。
  模块一:数据采集模块
  模块二:数据处理模块
  模块三:数据发布模块

图一:处理流程
 
采用军犬网络采集系统+军犬信息发布服务器结合来实现


第三部分:数据采集
1、数据采集的重要性:
   将按标准数据库结构,完成对目标数据进行采集、提取、自动更新等重要工作。采集后的数据将存储到指定的数据库,供网站的CMS系统的其它模板进行调用。数据的全面性、准确性、实时性、完整性、安全性、交互性将对本系统产生决定性作用。
 
图二:互联网采集系统流程图
  第一步:确定采集任务。
  第二步:每个采集任务,我们有多个目标数据源可供采集。
  第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。
  第四步:调度采集任务,与目标站点同步更新,增量采集。
  第五步:采集到数据结果,完成数据异构到同构的过程。
2、在成熟软件的基础上进行定制开发
 将在我公司自主研发的《军犬互联网采集系统 V5.0》(以下简称采集软件)的基础上进行定制开发《军犬互联网采集系统—马鞍山资讯特别版》,来完成数据采集的的任务。关于此软件的说明详见《军犬互联网采集系统—马鞍山资讯特别版用户手册》
 
 
图三:确保采集任务

第四部分:重点问题解决

 

1、 栏目对应:手动将需要采集平台的栏目对本地的栏目对应,使得数据采集时数据自动归入对应的栏目。
在军犬采集系统中,将软件界面的左下部分的树形目录称之为“频道”,大家可以理解为“分类”,也理解为“栏目”,甚至理解为“文件夹”都是可以的,它与我们使用的资源管理器中的“文件夹”特别相似,具有无限级分类的功能。
最重要的是方便对配置的采集规则的管理,以及对采集后的数据进行管理时,更符合您的阅读习惯等。
 
 


频道可以按数形目录无限细分,每个频道下面可以存放多个采集源。
2、 根据不同网站的不同栏目的数据更新状况设置自动检测时间,以及时有效地更新新闻标题。
 
频道自动更新
 
单个采集站点自动更新
3、 在第一次数据采集时,只获取标题、发布时间、来自哪。
4、 数据去重:根据标题去重,保留发布时间最早的数据。
5、 由编辑确定要采集的文章,勾选的文章才采集文章正文部分。
6、 保留数据采集日志:对于已经采集过的数据,则跳过不再采集,实现数据的增量抽取,提高数据采集效率。
7、 抓取所有内容入库,有相应的详细界面进行查询,修改,整理。
 (1)、采集系统目前支持各种主流的结构化数据库,如sql server、mysql、Oracle等。
 (2)、采集系统目前支持通过ODBC与各种数据库相连接,这样,可以连接与采集系统在同一台机器上的数据库,也可以连接在同一局域网内的其它机器上的数据库,甚至可以连接到公网上的数据库。
(3)、采集系统支持对所采集的内容进行查询、监控和管理

 


 
对信息进行可视化编辑
8、 采集后的数据由编辑进行审核,再用《军犬信息发布服务器V5.0》进行发布,同时对文章的发布状态,改为已发布。
 
发布服务器主界面
 
发布服务器内嵌FTP,可对附件进行同步分发
 
   采集端登录发布服务器后,便可以实现发布
 
上图:自动发布的发布选项设置

    注:涉及客户项目隐私只做简单分享


Copyright©2008-2014 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集