我们在采集某个网站上的数据,通常是把列表网址采集下来,然后通过网址去采集相对应的内容。火车头采集器9.0新版以前的版本主窗体有4大模块,分别是:第一步:采集网址规则;第二步:采集内容规则;第三步:发布内容设置;文件保存及部分高级设置。采集内容多是在文章页面进行,但是我们可能会遇到的情况是我们要采集的一些东西不在文章页面,而是在分类列表页面。比如,我们要采集分类列表页面每篇文章的缩略图。 一、列表采…

点击阅读全文>>

用火车头采集器采集数据的时候,如果需要采集下载图片,则需要采集到完整的图片标记,如:<img src= http://www.xxx.com/pic/123.jpg /> 但是我们发布到网站上时,可能只需要该图片的路径即可。实现方法如下图:aaaaaa psb 这样便能下载到图片,同时将该字段的值替换成图片的路径。还有一种通过前后截取,然后补全为绝对地址,再探测并下载文件的方法,这里就…

点击阅读全文>>

用火车头采集器获取当前采集网址的正则表达式 要能采集网址的火车头,必须是7版以上的,以下的版本无法办到。 首先创建一个标签为本文网址,勾选后面的“从网址中采集”。 选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?) 我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方…

点击阅读全文>>