军犬采集首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 采集技术交流 > 正文

网络蜘蛛—图片下载专家

发布日期:2009-04-10


   互联网上有着无穷无尽的资源,其中不乏大量精美的图片:山水、明星、可爱的动物,当然还有,还有漂亮的MM!相信像本文作者这样狂热地喜爱搜集图片的网虫儿为数不少。他给大家带来了一个自动搜集图片的好东东。
 
  以前我搜集图片的方法很简单,就是用IE的“另存为文件”功能将图像文件直接保存到硬盘上。这种方法非常简单有效,但是随着我搜集图片的规模越来越大,我发现总是用手工操作不但效率低下,而且还很累。经常在想,要是有一个善解人意的自动下载软件就好了。
  
  一个偶然的机会,我发现了一个叫作“网络蜘蛛”的免费软件,它完全可以满足我的要求,因为它可以自动搜索HTML页面里的链接并下载指定的文件!想想看,面对那些动辄拥有数百幅图片的网站,你是否有耐心和时间一一点击查看和下载?这个软件就像是一只不知疲倦的蜘蛛,展开它的“数码触角”,在互联网上为你进行自动搜索和下载,一点也不用你费心。听起来这似乎有点象离线浏览器或网站下载软件是吗?其实它们还是有些差别的,网络蜘蛛的设计目标主要是针对图片等一些比较零碎的、尺寸不是很大的文件的下载,通过灵活的选项设置和多线程优化下载,高度强调自动化工作和高可靠性。下面就把我的使用心得给大家介绍一下。
基本使用网络信息采集系统主要有以下几个选项:

1、 URL:这个其实就是开始的网络地址。你要在这里输入希望开始搜索的页面地址。要注意:有很多网站采用框架结构的页面,你不能输入在浏览器的地址栏看见的地址,而要输入你真正打算开始搜索的页面地址。得到真实地址的方法很简单,在页面上点击鼠标的右键,查看页面属性,浏览器会将真实的地址列出来,用这个地址就行了。

2、最大搜索层数:这里输入希望搜索的层数。这个参数限制“网络蜘蛛”自动搜索的范围,开始页面为第一层,开始页面里的链接页面为第二层,第二层页面上链接的页面为第三层,依次类推。建议大家把搜索的层数限制在3层以内,因为网页的链接通常都比较多,如果搜索层数太多的话,会造成过多的无效搜索,反而浪费了带宽和资源。当然,如果有专线又不计较通信费用的话,可以试试多搜索几层,看看都有什么结果。不过我要告诉大家的是,据统计,互连网上的任意两个页面的距离平均是9个链接!

3、 同步下载线程数:这个参数比较专业,设置也比较灵活。开始我也弄不清如何设置,经过请教作者,总算搞清了它的含义。原来,为了充分利用网络带宽,“网络蜘蛛”支持多线程同时下载功能,即同时下载多个文件,这样就可以充分地挖掘通信线路的潜力,提高下载速率。对于拨号上网的人来讲,这个参数一般设在20~40之间,太多则可能堵塞通信线路,令每一个下载线程都不能充分传输数据,导致频繁的中断和重新连接,降低下载效率。太少则不能充分利用带宽。这个参数还和连接的网站速度有关,对于速度较快的站点,可以设小些,否则就设大些。这里有个简单的方法,可以确定设置是否合理:你可以利用“网络蜘蛛”显示的下载速度来调节,一般维持在4-5k/s就可以了。

4、下载文件类型:可以选择下载的类型,你可以只下载图片,也可以下载包括HTML文件在内的所有文件。

5、文件名必须包括:这个选项允许你设定一个字符串,只有文件名包括这个字符串时,网络蜘蛛才下载它。这样可以滤除不必要的文件,提高下载效率。注意:这个参数不支持如*.jpg或???.jpg之类的通配符,如果只要下载jpg文件,可以填写 .jpg。

6、保存目录:可以指定下载文件保存的目录,请输入相对路径,如“123”、“abc”等,目录会自动创建在网络蜘蛛执行文件的相同目录下,不支持嵌套目录,如“123\456”等。

7、只下载同一服务器上的文件:现在的主页上有太多的广告和链接,为了避免“网络蜘蛛”被它们误导到别的站点去,建议选中此项,可以大大节省你的网费。不过,要注意的是,有的站点把页面放在一个站上,而文件放在另一个站上,这时,就不能选中本项,否则,“网络蜘蛛”将一无所获。

8、下载页面内嵌图片:选中此选项可以让“网络蜘蛛”下载页面上嵌入的图片,很多网站会在页面上放置小预览图片,要点击进入后才能看到真正的高清晰度图像,取消此选项可以让“网络蜘蛛”不下载此类图片。对于直接把图像嵌入页面的站点,应当选中本项。

9、下载超链接文件:选中此项,将使“网络蜘蛛”下载页面上的需要点击才能打开的超链接文件。和上面的选项配合,可以绕过页面上的预览图片,直接下载躲在后面的真正的图像文件,进一步为你节省网费。

10、只下载最后一层链接文件:选中此项可以使“网络蜘蛛”忽略搜索到的前几层页面上的文件,只下载最后一层链接中的文件。很多网站采用树状目录形式组织页面,图像文件通常都放在最底层的页面上,这时,你要选中此项,让“网络蜘蛛”不去理会那些无用的信息,直接到最后一层去下载文件。设定好选项后,点击开始按钮,就可以开始下载了。网络蜘蛛支持断点续传功能,你可以在任意时候停止下载或重新开始下载。
   任务设定在网络蜘蛛主界面左上角的图标上点一下,打开下拉菜单,选择“Edit URL List”就可以进入任务设定界面:这里提供一个任务编辑器,你可以设定好下载的任务表,然后让网络蜘蛛自动完成下载。对于那些每天更新内容的网站,你只要在这个地方设定好,然后每天运行一次“网络蜘蛛”,就可以把它们一网打尽了。
   这里的参数设定和上面介绍的一样,需要介绍的是任务列表编辑器独有的四个参数。一个是超时设置,它可以设定一个任务的超时时间,单位是分钟,当一个任务的下载进度长时间停滞时,网络蜘蛛会自动终止这个任务,进行下一个任务。另一个有用的设置是完成后自动关机功能,选中这个选项后,网络蜘蛛会在所有任务完成后自动关闭计算机,这是一个很体贴用户的功能,你可以在深夜网络空闲时打开计算机,开始下载,然后放心的去睡大觉。“开始点”参数是一个控制开始下载任务的参数,第一个任务是“0”,第二个任务是“1”,依次类推,网络蜘蛛会从设定的开始点开始执行下载任务。一般如果从头一个任务开始的话,这个参数设为“0”就行了,随着任务的执行,网络蜘蛛会自动修改这个参数,没有特殊情况的话,请勿手工修改它。每一个任务还有一个“有效”参数,可以决定网络蜘蛛是否处理这个任务。注意:开始按任务列表下载请按此界面上的“开始下载”键,请勿按主界面上的“开始”键。

 

 


Copyright©2008-2014 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集