新增采集节点:第一步设置基本信息及网址索引页规则
节点基本信息
节点名称: 目标页面编码: GB2312 UTF8 BIG5
区域匹配模式: 正则表达式 字符串 内容导入顺序: 与目标站一致 与目标站相反
以下选项仅在开启防盗链模式才需设定,如果目标网站没有防盗链功能请不要开启,否则会降低采集速度。
防盗链模式: 不开启 开启 资源下载超时时间:
引用网址: (一般为目标网站其中一个文章页的网址)
列表网址获取规则
来源属性: 批量生成列表网址 手工指定列表网址 从RSS中获取
批量生成地址设置:
匹配网址:
(如:http://wwws.dedebiz.com/html/test/list_(*).html,如果不能匹配所有网址,可以在手工指定网址的地方输入要追加的网址)
(*)从 (页码或规律数字)  每页递增: 启用多栏目通配(#)
手工指定网址:
在指定了通配规则后有些不能匹配的网址也可以在这里指定。
文章网址匹配规则
内容网址匹配模式: 指定包含有文章网址的区域(可以获取区域的网址、标题、图片等信息) 指定网址正则表达式(仅能获得网址信息)
包含有文章网址的区域设置:
区域开始的HTML:
区域结束的HTML:
如果链接中含有图片: 不处理 采集为缩略图
对区域网址进行再次筛选:
(使用正则表达式)
必须包含: (优先级高于后者)
不能包含: