基本信息

采集规则名称 如:搜狐国内新闻采集
采集的数据存入频道 不能选择单页频道、链接频道、有子频道的频道
采集列表页URL地址规则 留空表示仅采集附加列表页。{*}表示通配符 以http://开头,如:http://www.xx.com/news.html?page={*}
通配符变量从      步长       通配符长度 
附加列表页URL地址 主要用于填写一些不规则的列表页地址,多个URL地址以回车分隔,如果域名和列表页相同,则不要填写http://和域名前缀,如:/news.html
列表页中详细页链接区域规则 格式:区域开始代码{*}区域结束代码,如:<div id="right">{*}</div>。在列表页中,进一步缩小详细页链接的区域范围,如果能正确识别链接区域,请留空
采集详细页URL地址规则 留空表示直接从列表页采集,适合采集固定的几个页面。 如果域名和列表页相同,则不要填写http://和域名前缀
通配符:{*}表示匹配任何字符、{n}表示匹配任何数字。如:/news/{*}.html、/news.asp?id={n}(数字在最后,必须用{n})
备注
详细页地址采集测试 详细页采集测试   点击按钮测试获取所有详细页地址。如果测试结果不正确,请重新设置参数

详细页内容替换规则 先按以下规则预处理(过滤、替换)详细页内容,然后再从详细页内容中采集字段数据

序号 被替换文本规则如:<div class="ad">{*}</div> 替换成不支持写通配符{*}
{$j} 删除
添加替换规则

字段匹配规则

序号 字段名称 匹配规则 如:<div class="Title">{*}</div>,不写{*}即设置字段默认值
{$j} 删除字段采集测试
添加字段规则 备注:可在"采集设置"栏中设置指定字段采集测试用的详细页地址, 不设置表示从列表页中随机获取1个详细页
匹配规则主要有4种类型:
[1] 固定值:如果匹配规则没有{*}、也不是函数匹配,则直接返回设置值,相当于设置字段的默认值
[2] 前后截取:格式:开始字符串{*}结束字符串,匹配的内容为开始字符串和结束字符串之间的内容。如:<div class="Title">{*}</div><b>
[3] 标签对前后截取:格式:<开始标签 [属性]  {*}</结束标签>,比前后截取匹配更实用, 匹配的内容为与开始标签对应的结束标签之间的内容。 如:<div class="Title">{*}</div>
[4] 选择器表达式:格式:$("jquery语法选择器").html|val|text|attr(),主要用于采集网页中更复杂的数据,如:HTML标记、表单值、纯文本、标签属性。匹配速度最慢
[5] 自定义函数:主要实现一些高级功能:如:随机返回值、复杂数据提取与处理等。 格式:function getfield($content){ //PHP语法处理代码 },参数$content:表示当前采集网页的内容
如:随机返回3位数数字:function getfield($content){ return rand(100,999); }

采集设置

字段采集测试用的详细页地址 留空表示从列表页中随机获取1个详细页
浏览器标识User-Agent 当被采集网站对浏览器有要求时,可将采集程序伪装为某种浏览器,如伪装成一个手机浏览器,以便能采集手机网站数据
被采集网页编码 自动检测     utf-8     gb2312     big5     gb18030     gbk     unicode    
采集顺序      逆序采集表示从最后一个Url开始采集,可以保证显示顺序和被采集的网站一样
最大采集数量 0表示采集所有,否则仅采集前面指定数量的网页
2次采集时间间隔 单位:毫秒,0表示没有时间间隔,如果被采集网站有访问频率限制(如:2次访问Url的时间间隔必须大于200毫秒),请设置此值
是否自动保存远程图片到服务器      选择是,表示将被采集网页的图片保存到服务器上
是否将采集的第1张图片作为缩略图      选择是,表示将采集的第1张图片作为缩略图, , 生成缩略图的参数见缩略图设置
是否自动保存远程Flash到服务器      选择是,表示将被采集网页的Flash保存到服务器上
是否保存重复标题      选择否,表示如果采集的标题在目标频道已经存在,则不保存
是否审核采集的数据      选择是,表示采集入库的数据是未审核状态