军犬采集首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 解决方案 > 正文

电信行业数据挖掘-解决案例

发布日期:2009-03-13



第一部分:项目需求:

      要求对11省级城市的9大行业(医疗、汽车、餐饮、购物、教育、娱乐休闲、住宿、日常服务、旅游)根据行业的不同,按照不同的字段智能抽取企业网站的相关字段的数据,对所抽取的数据作只能的去重处理,同一个企业的数据做真伪辨别,用程序来效验数据,最后建立呼叫中心,人工确认数据的有效性建立呼叫中心,人工确认数据的有效性。

第二部分:数据处理解决方案:


 
数据分布状态

 

项目执行流程:

1. 定向抽取结构化数据:从多个平台(阿里巴巴、慧聪网、口碑网、爱帮网、58同城分类等平台)上抽取数据,以最大限度确保数据的数量。


 

军犬采集系统流程图:

2. 定向的结构化信息抽取,针对不同的平台,制定不同的采集规则,以准确地将结构化数据存入对应的数据库中的字段。

3. 采集任务保障:


 
确保采集任务
4. 对于没有的企业结构化数据,通用spider 漫游来访问企业网站,抽取信息正文。
5. 构建词库:在数据抽取后,利用现有的数据建立行业词库和特征词库,并且在分析其它网页时自动完善词库。


 
词库的建立与完善
6. 智能提取:采用分词技术,对非结构化数据进行智能抽取。


 
数据处理及校验
7. 企业信息重复发布的情况:获取信息发布时间,以最近发布的信息为准。自动删除重复数据。
8. 利用类似项目的积淀,对所采集的数据采集进行校验(如街道名称、企业名称等数据)
9. 呼叫中心的管理平台,对信息进行分类管理(分为已确认信息,待确认信息,需修改信息,已修改信息等),自动分配给不同的工作人员。
10. 自动拨号功能,取代人工拨号的工作,降低成本。
11.  呼叫中心(待定)
12. 数据实时监控,动态更新,以确保信息的及时性。
13. 更为详细的数据更新解决方案(在实践过程中不断积累和创新)。

注:涉及客户项目隐私只做简单分享


Copyright©2008-2014 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集