• 火车头V9采集内容分页时采集不到分页内容的解决办法

    火车头V9采集内容分页时采集不到分页内容的解决办法

    火车头不同的版本设置有些不一样,从网上找的一些内容是一个老版本的,估计是7,8 版本,我这里用的是9.0.11.19版本,就是9版本吧。在网上找的一些设置截图都是不一样的。这里我讲下火车头采集9是如何设置内容页面分页采集的...

    2016-09-24 21:01:15[火车头采集器教程]
  • 火车头采集规则和发布模块的对接

    火车头采集规则和发布模块的对接

    采集规则和发布模块的对接 上两节我们讲解了采集规则和发布模块的制作,接下来我完成最后的对接。 内网发布规则--Web在线发布:勾选需要使用的WEB配置即可 注意:我们的采集规则标签 一定要和发布模块的标签个数 和名字 ...

    2016-04-21 17:57:51[火车头采集器教程]
  • 火车头dedecms文章发布模块制作

    火车头dedecms文章发布模块制作

    dedecms文章发布模块制作 WEB发布模块,即采集器把你手动在网站后台发布内容的整个过程包含登录网站后台,选择栏目,以及发布文章,这些步骤写到采集器里面,模拟发布,这就是WEB发布模块。 然后规则采集到的值就通过标签名传...

    2016-04-21 17:56:35[火车头采集器教程]
  • 火车头文章规则制作

    火车头文章规则制作

    一个简单的文章规则制作 通过采集faq为例来说明采集器采集的原理和过程。 本例以http://faq.locoy.com/qc-12.html演示地址。 (1)新建个采集规则 选择一个分组上右击,选择新建任务,如下图: (2)添加起始网址 在这里我需要采...

    2016-04-21 17:54:57[火车头采集器教程]
  • 火车头抓取网页数据工具新增功能json提取示例

    火车头抓取网页数据工具新增功能json提取示例

    使用过最新版火车采集器V9的朋友应该都发现V9新增了json提取的功能,但是许多使用抓取网页数据工具的朋友在操作此功能的时候都会觉得有点弄不明白,这里特意为大家整理了json提取的教程示例,感兴趣的朋友可以仔细研究一下...

  • 火车头采集器超强过滤html秘籍

    为了得到一个标准的内容,在采集上必须下足功夫才行! 我对标准内容的衡量: 每一个段落都是<p></p> 没有多余的HTML标签和与主题无关的字符 提取数据方式 选择 正则提取,组合结果填 <p>[参数1]</p> 有些内容开始...

    2016-02-27 16:24:53[火车头采集器教程]
  • 火车头采集器之内容采集规则关联多页

    火车头采集器之内容采集规则关联多页

    关联多页 当采集的信息不在当前默认页,而在当前默认页某一个链接的所在页时,此时就要用到多页管理了, 多页管理界面如下: 我们以内容页网址http://kimi201406.1688.com/page/creditdetail.htm为例, 来获取获取它的公司...

  • 火车头采集器之循环设置

    火车头采集器之循环设置

    当需要采集同样格式的多条数据时,可以根据其中一条信息格式进行设置,然后使用循环匹配。 我们以网址http://bbs.locoy.com/spider-140339-1-1.html为例, 来获取获取它的主题内容和回复内容。 查看源代码,分析得到: 主题内...

  • 火车头采集器之内容分页

    火车头采集器之内容分页

    内容分页有2种列出模式:a.首页全部列出,b.上下页模式。 首页全部列出模式适用于分页地址全部显示出来的情况,如下图: 上下页模式适用用分页地址仅列出一部分的情况,如下图 a.首页全部列出 我们以网址http://bbs.loc...

    2016-02-27 16:22:38[火车头采集器教程]
  • 火车头采集器之数据处理

    火车头采集器之数据处理

    数据处理 对从内容页面提取的数据进行进一步处理,可以同时添加多个操作,按照从上到下的顺序来执行。 也就是说,上个步骤的结果会作为下个步骤的参数。 1)提取内容为空:如果提取内容为空,则使用正则匹配从原始页面中再次...