军犬采集首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 采集技术交流 > 正文

丰富的互联网信息如何有效加以利用

发布日期:2009-04-10


   丰富的互联网信息如何有效加以利用,信息来源的异构性是网络信息难以再利用的焦点所在。由于网络信息的异构性,导致了互联网信息再利用的“采集难”、“整理难”。国内外很多公司和企业都投入了大量的财力物力进行研发。现在也出现了很多工具和产品,通用型的如Google搜索引擎,比较专业的如mp3、或者Google程序等可以列入信息收集范畴,本人负责开发的CGRobot虽然个人用户也会使用,但是下载下来的(页面)数据通常需要耗费大量的精力来编辑才能再利用。到目前为止,还没有出现一个既适合个人用户使用,又适合企业使用的比较方便的数据采集和整理工具。
    本文试图从另一个角度来进行数据挖掘。也就是认为虽然Internet上的数据虽然非常庞杂,但对于具体的网站和网页,却是有结构的。如果忽略原有的结构关系,尽管思路简单明了,但是受限于人工智能的技术,即使是最先进的系统,也无法满足当前用户应用的大部分需求。

  那么如果我们能剖析到原有网站本身具有版面元素的关系、页面之间的关系,然后根据用户的指令,将这些元素之间的关系转换为用户需要的数据,那么我们说采集系统是有效利用了网站制作人的智慧和用户的智慧。

   信息采集是指为用户指定需要采集的内容、这些内容映射到数据库中的哪一部分、以及其他一些采集规则,然后采集系统根据用户提供的这些信息进行采集。很重要的一点是软件系统的易用性。提高易用性的手段可以有多种,例如象Teleport或者CGRobot的采集规则限制;CGRobot的自动提取方法、以及现在的指定网页版面元素及其关系等等。为了形成一个有竞争力的系统,这些手段应该都供。
   现在只考虑网页元素及其关系。这时事实上需要用户告诉采集系统:需要经过哪些步骤(或者事件)然后才采集出什么元素,并把该元素放置到数据库某一部分中。这里面涉及到三个步骤:1) 用户设定采集需要经历的过程;2)用户设定采集什么样的元素;3)用户设定这个元素放置到数据库中的哪儿。

   当采集的数据放置到数据库中的时候。我们说这时候已经基本上满足用户的需要了。但是可能还存在一些问题。比如由于规则定义不够细致而把不该采集的也采集进来了等。这时用户需要对数据进行手工整理。当考虑实现一个功能强大的系统的时候,还应该考虑信息如何能够灵活的再整理。但是本文就不再讨论这些了。
    设计系统时需要不断的提出需求,然后修改系统的定义。如此迭代以便系统具有强大的功能并且是易用的。
   网站页面和用户需求的映射只有用户自己知道,程序是不知道的。程序只是需要提供一个用户能够将需求告诉程序的通道。有效的利用网站创建者的智慧和用户的智慧远比程序本身具有智能来的简单。
   优秀的设计来源于对现实的模仿。本文虽然没有讨论数据存储和再整理,但是实现时必须考虑。用户需求的复杂性也导致了数据存储和再整理的复杂性。采集系统是把Internet信息结构映射为用户需求的工具。
 

 


Copyright©2008-2014 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集