基本信息
采集规则名称
如:搜狐国内新闻采集
采集的数据存入频道
selected="selected" mid="{$c.ChannelModelID}" fn="{$c.FieldName}" aid="{$c.AttributeID}" dn="{$c.DisplayName}" value="{$c.ChannelID}"> {$c.ChannelName}
不能选择单页频道、链接频道、有子频道的频道
采集列表页URL地址规则
留空表示仅采集附加列表页。
{*}
表示通配符
以http://开头,如:http://www.xx.com/news.html?page=
{*}
通配符变量从
到
步长
通配符长度
附加列表页URL地址
{$Data.ListUrlOther}
主要用于填写一些不规则的列表页地址,多个URL地址以回车分隔,如果域名和列表页相同,则不要填写http://和域名前缀,如:/news.html
列表页中详细页链接区域规则
{$Data.ListUrlRegionRegex}
格式:区域开始代码
{*}
区域结束代码,如:<div id="right">
{*}
</div>。在列表页中,进一步缩小详细页链接的区域范围,如果能正确识别链接区域,请留空
采集详细页URL地址规则
留空表示直接从列表页采集,适合采集固定的几个页面。
如果域名和列表页相同,则不要填写http://和域名前缀
通配符:{*}表示匹配任何字符、{n}表示匹配任何数字。如:/news/{*}.html、/news.asp?id={n}(数字在最后,必须用{n})
备注
{$Data.CollectDescription}
详细页地址采集测试
详细页采集测试
点击按钮测试获取所有详细页地址。如果测试结果不正确,请重新设置参数
详细页内容替换规则
先按以下规则预处理(过滤、替换)详细页内容,然后再从详细页内容中采集字段数据
序号
被替换文本规则
如:<div class="ad">
{*}
</div>
替换成
不支持写通配符
{*}
{$j}
{$ri.SearchText}
{$ri.ReplaceText}
删除
添加替换规则
字段匹配规则
序号
字段名称
匹配规则
如:<div class="Title">
{*}
</div>,不写
{*}
即设置字段默认值
{$j}
{$m.DisplayName}
{$m.DisplayName}
{$fi.AttributeRegex}
删除
字段采集测试
添加字段规则
备注:
可在"采集设置"栏中设置指定字段采集测试用的详细页地址, 不设置表示从列表页中随机获取1个详细页
匹配规则主要有4种类型:
[1] 固定值:如果匹配规则没有{*}、也不是函数匹配,则直接返回设置值,相当于设置字段的默认值
[2] 前后截取:格式:
开始字符串{*}结束字符串
,匹配的内容为开始字符串和结束字符串之间的内容。如:<div class="Title">{*}</div><b>
[3] 标签对前后截取:格式:
<开始标签 [属性] {*}</结束标签>
,比前后截取匹配更实用, 匹配的内容为与
开始标签
对应的
结束标签
之间的内容。 如:<div class="Title">{*}</div>
[4] 选择器表达式:格式:
$("jquery语法选择器").html|val|text|attr()
,主要用于采集网页中更复杂的数据,如:HTML标记、表单值、纯文本、标签属性。匹配速度最慢
[5] 自定义函数:主要实现一些高级功能:如:随机返回值、复杂数据提取与处理等。 格式:
function getfield($content){ //PHP语法处理代码 }
,参数$content:表示当前采集网页的内容
如:随机返回3位数数字:function getfield($content){ return rand(100,999); }
采集设置
字段采集测试用的详细页地址
留空表示从列表页中随机获取1个详细页
浏览器标识User-Agent
IE浏览器
Firefox浏览器
Chrome浏览器
Opera浏览器
Safari浏览器
微信手机浏览器
Android手机浏览器
iPhone手机浏览器
QQ手机浏览器
Baidu蜘蛛
Google蜘蛛
Sogou蜘蛛
当被采集网站对浏览器有要求时,可将采集程序伪装为某种浏览器,如伪装成一个手机浏览器,以便能采集手机网站数据
被采集网页编码
自动检测
utf-8
gb2312
big5
gb18030
gbk
unicode
采集顺序
顺序采集
逆序采集
逆序采集表示从最后一个Url开始采集,可以保证显示顺序和被采集的网站一样
最大采集数量
0表示采集所有,否则仅采集前面指定数量的网页
2次采集时间间隔
单位:毫秒,0表示没有时间间隔,如果被采集网站有访问频率限制(如:2次访问Url的时间间隔必须大于200毫秒),请设置此值
是否自动保存远程图片到服务器
是
否
选择是,表示将被采集网页的图片保存到服务器上
是否将采集的第1张图片作为缩略图
是
否
选择是,表示将采集的第1张图片作为缩略图,
, 生成缩略图的参数见缩略图设置
是否自动保存远程Flash到服务器
是
否
选择是,表示将被采集网页的Flash保存到服务器上
是否保存重复标题
是
否
选择否,表示如果采集的标题在目标频道已经存在,则不保存
是否审核采集的数据
是
否
选择是,表示采集入库的数据是未审核状态