org.spiderflow.io.SpiderResponse

element

TIP

返回值类型:Element

  • 将对象转为Element
  1. ${resp.element()}

xpath

参数名 描述 可否为空
xpath xpath表达式

TIP

返回值类型:Element/String

  • 根据xpath获取内容或Element对象
  1. ${resp.xpath('//a/@href')}

xpaths

参数名 描述 可否为空
xpath xpath表达式

TIP

返回值类型:List<Element/String>

  • 根据xpath获取内容或Element对象
  1. ${resp.xpaths('//a/@href')}

regx

参数名 描述 可否为空
pattern 正则表达式
groups 捕获组序号int或List<Integer>(多个)

TIP

返回值类型:String/List<String>

  • 根据正则表达式提取字符串
  1. ${resp.regx('<title>(.*?)</title>')}

regxs

参数名 描述 可否为空
pattern 正则表达式
groups 捕获组序号int或List<Integer>(多个)

TIP

返回值类型:List<String>/List<List<String>>

  • 根据正则表达式提取字符串
  1. ${resp.regx('<h2>(.*?)</h2>')}

selector

参数名 描述 可否为空
cssQuery css选择器

TIP

返回值类型:Element

  • 根据css选择器查找dom
  1. ${resp.selector('div a.selected')}

selectors

参数名 描述 可否为空
cssQuery css选择器

TIP

返回值类型:List<Element>

  • 根据css选择器查找dom
  1. ${resp.selectors('div a.selected')}

jsonpath

参数名 描述 可否为空
path jsonpath

TIP

返回值类型:Object

  • 根据JSONPath提取数据
  1. ${resp.jsonpath('$.code')}

links

参数名 描述 可否为空
regx 正则表达式(有此参数时代表提取满足条件的链接)

TIP

返回值类型:List<String>

  • 提取页面上的所有a标签的链接
  1. ${resp.links()}

images

TIP

返回值类型:List<String>

  • 提取页面上的所有img的链接
  1. ${resp.images()}