网络信息采集专家_网络数据采集专家-军犬网络采集系统( 稳准狠快)
军犬网络采集系统首页 |  军犬系统介绍 |  军犬采集解决方案 |  军犬采集系统试用 |  采集技术交流 |  军犬采集客户案例 |  军犬采集动态 |  联系我们 | 加入收藏
当前位置:首 页 > 采集技术交流 > 正文

网络Spider抓取思路

发布日期:2008-01-24

 

下面简单的介绍一下用Python来抓取网页

这样虽然简单,但如果需要进一步精细的控制就略显不足了,在Python 3.0中,将2.x中urllib和urllib2进行了整合,使得抓取变得网页足够的简单了.具体的,大家都知道,网页抓取实际上分为2步:第一步是发出请求,第二步接收服务器返回的数据,在Python中也是这么做的.


上面的是POST的数据,众所周知,还有一种GET的,怎么做了?

上面2个例子中的response对象有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息.

另外一个重要的内容就是错误处理了,这里错误处理比较简单,贴个代码大家自己琢磨吧

  我在互联网上浏览时,经常会看到一些不错的Flash动画,有什么办法能将这些Flash动画保存到我的电脑中呢?
  你可以通过下载软件FlashGet保存这些文件,具体操作方法如下:
(1)打开一个嵌有Flash动画的网页后,用鼠标右键单击选中IE的地址栏,在弹出菜单中选择“复制”把网址复制下来。

(2)运行FlashGet,选择“工具”菜单中的“站点资源探索器”。当“站点资源探索器”打开后,再选择它“工具”菜单中的“站点资源探索器选项”。

(3)在文本框中已有文件类型的后面输入“;.SWF”(不要输入引号),然后再单击“确定”按钮。

(4)用鼠标右键单击“站点资源探索器”的地址栏,在弹出菜单中选择“粘贴”命令将刚才复制的网址粘贴上去。

(5)按回车键后可以将该网址包含的相关内容查找出来,在嵌有Flash动画的网页的上一级目录中,我们就可以看到正在寻找的这个Flash动画文件。用鼠标右键单击它,选择“下载”即可。、“站点资源探索器”会立即调用FlashGet对它进行下载。假如查找出的结果太杂乱,找不到Flash动画文件,则可选择“站点资源探索器”的“编辑”菜单中的“过滤”项,在弹出对话框中点选“只显示以下类型”,在“文件类别”框中输入“.SWF”,单击“确定”按钮就可以在查找结果中搜索*.swf的文件,然后进行下
 


Copyright©2008-2012 中科点击军犬软件版权所有 京ICP备11012241-3号 军犬网络采集系统专业提供:网络信息采集 网络数据采集 网站信息采集