用火车头采集网址列表相关内容及图片附件下载上传设置方法

发布时间:
2016-12-23 10:28:26

我们在采集某个网站上的数据,通常是把列表网址采集下来,然后通过网址去采集相对应的内容。火车头采集器9.0新版以前的版本主窗体有4大模块,分别是:第一步:采集网址规则;第二步:采集内容规则;第三步:发布内容设置;文件保存及部分高级设置。采集内容多是在文章页面进行,但是我们可能会遇到的情况是我们要采集的一些东西不在文章页面,而是在分类列表页面。比如,我们要采集分类列表页面每篇文章的缩略图。
一、列表采集内容
实现方法:
在“第一步:采集网址规则”配置时,多级网址获取并选择用手动获取。
20150930165254 20150930165324
我们要采集的目标,列表页面为:
20150930165601
对应的代码为:
20150930165839
取其特征代码:
20150930170056
放入上面的脚本规则里。使用[参数]和[参数1]对应来获取列表的网址。这样,我们保存后测试一下采集内容就能从分类列表页面采集到缩略图及标题等信息了。
20150930170748
二、图片附件下载上传
火车头支持图片附件等本地化,但是在设置过程中有一些要注意的地方
20150930173936 20150930174058如下面2图看到的一样,如果没有了解可能我们都会用下面这种方法去设置。但是这是一种错误的方法(即使用反斜杠\进行转义),文件保存目录我们只需要设置你想要把远程的图片保存在哪个目录名下,只是目录的名字并不是目录路径。设置完这里还需要设置一个地方。
20150930175417
在“文件保存及部分高级设置” 文件下载设置 文件链接地址前缀,这里面填写你要给予的图片附件目录的上级目录或者链接。比如我们在前面的采集内容规则里面设置的下载目录名为imgdir,测试的图片为test.jpg,那么采集下来的路径就为imgdir/test.jpg,前面并没有/因此当你的这篇文章网址为http://www.xxx.com/post/1.html时,这个文章的图片链接就成了http://www.xxx.com/post/imgdir/test.jpg。但是我们要的是http://www.xxx.com/imgdir/test.jpg或者http://www.xx.com/**/**/imgdir/test.jpg这种。
我们可以在“文件链接地址前缀”里来实现DIY,可以设置成绝对路径或者相对路径如:http://www.xxx.com/upload/images/或者/upload/images/。再配合FTP设置,就能够上传到正确的目录下并且在文章里面正常显示出图片。
Good luck!

共有 0 条评论

You must be logged in to post a comment.