第一部分:项目需求
根据约定格式,采集数据入库。
详细要求详见文件:Arthur_F_Sullivan_2008_01_30.xls
第二部分:数据处理解决方案
数据处理流程
1、 本项目的执行采取以软件采集为主,辅以人工处理,数据处理流程如上图。
2、 先用《军犬采集系统VER5.2》进行采集,然后再用人进行数据处理及校验。
3、 一些特殊的链接地址进行,先分析其规律,再通过一定转换获得信息的绝对地址。
4、 针对不同的网站定制不同的采集规则,人为判断是否为有规则字段。
前后标识提取
指定特定的值
5、 对于有规则的字段采用前后标识提取或采集指定值的方式进行处理。
正规表达式抽取数据
6、 智能处理:对于没有规则的字段的数据采用智能标签识别和正则表达式进行处理;
字段内容处理
7、 搭建WEB管理平台便于信息处理人员处理和校验数据;
8、 对于一些网站,无法用软件进行采集,则采用人工处理。
9、 数据更新:采用软件对所有信息源进行实时监控,如有新的数据则进行采集
(亦可定制定采集)
注:涉及客户项目隐私只做简单分享