汉语大全>话题作文范文>乐火车头采集器

乐火车头采集器

详细内容

篇一:《关于火车头采集器的使用方法》

关于火车头使用方法

目录

目录..................................................................................................................................................2

一、原理描述.................................................................................................................................3

1.火车采集器数据抓取原理:...............................................................................................3

2.火车采集器数据发布原理:...............................................................................................3

3.火车采集器工作流程:.......................................................................................................3

二、术语解释.................................................................................................................................4

三、下载地址...................................................................................................................................5

四、安装升级与卸载.......................................................................................................................6

五、操作步骤...................................................................................................................................7

一、原理描述

1.火车采集器数据抓取原理:

火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。

2.火车采集器数据发布原理:

在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。

1、不做任何处理。因为数据本身是保存在数据库的(aess、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。

2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。

3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。

4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。

3.火车采集器工作流程:

火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。

1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。

2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。

具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。

二、术语解释

三、下载地址

篇二:《火车头采集器菜鸟使用手册》

火车头采集教程火车头采集器使用说明

下载地址:/forum.php?mod=viewthread&tid=4&extra=

下载地址:/Down/我们下载免费版。。。。

注意:想用火车,就必须得安装.FrameWork2.0框架或更高版本

.framework2.0下载地址:

那么,火车我们也下载到本地了,。框架,我们也安装了。。。

那么,我们把新下载的火车采集软件,解压下。。。

看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。

上图中,用红线圈住的LocoySpider.exe是主程序,我们双击打开。。。

ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。

我们先补习一下,火车头采集软件的工作原理。。。

因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?

我们看下网站的基本结构。。。

"/retype/zoom/6a016aec998f22bcd10d2c?pn=4&x=0&y=7&raww=1106&rawh=692&o=png_6_0_0_135_212_673_422_893.25_1263.375&type=pic&aimh=300.3254972875226&md5sum=07948492cd31cec2fb16436bb4ca50bd&sign=9df47d760e&zoom=&png=252389-531898&jpg=0-0"target="_blank">

V2010版功能项

多任务,多线程运行√多页采集,内容分页采

集功能

标签循环采集√下载图片文件√列表缩略图及列表页标

签采集

自动提取内容缩略图√正则使用,自定义规则

获取网址

支持网站登录采集√网页及地址编码自动识

网页压缩,跳转采集√自定义User-Agent,模

仿蜘蛛采集

支持使用代理服务器采

集数据

自动摘要,自动拼音√html标签排除√采集记录筛选√任务运行日志√自动提取内容第一张图√WEB在线发布模块编辑

修改

使用post方法获得采

集网址

随机文件夹保存下载文

文件下载续传√*数据库发布模块编辑器√*AESS数据库保存数

迅雷和FlashGet的地

×

址解密

××××

××××

√×××

√√√×

√√√√

√√√√√√√√√√√√√√√√√√√√√√√√

√√√√√√√√√√√√√√√√√√√√√√√√

2

√√√√√√√√√√√√√√√√√√√√√√√√

√√√√√√√√√√√√√√√√√√√√√√√√

√√√√√√√√√√√√√√√√√√√√√√√√

√√√√√√√×××××××××

√√√√√√√√√√√√√√××