火车头 · 2022年03月4号 0

火车头采集器常用正则表达式

正则表达式–验证手机号码13开头:

1
13[0-9]{9}

实现手机号前带86或是+86的情况:

1
^((\+86)|(86))?(13)\d{9}$

电话号码与手机号码同时验证:

1
(^(\d{3,4}-)?\d{7,8})$|(13[0-9]{9})

提取信息中的网络链接:

1
(h|H)(r|R)(e|E)(f|F) *= *(‘|”)?(\w|\\|\/|\.)+(‘|”| *|>)?

提取信息中的邮件地址:

1
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

提取信息中的图片链接:

1
(s|S)(r|R)(c|C) *= *(‘|”)?(\w|\\|\/|\.)+(‘|”| *|>)?

提取信息中的IP地址:

1
(\d+)\.(\d+)\.(\d+)\.(\d+)

提取信息中的中国手机号码:

1
(86)*0*13\d{9}

提取信息中的中国固定电话号码:

1
(\(\d{3,4}\)|\d{3,4}-|\s)?\d{8}

提取信息中的中国电话号码(包括移动和固定电话):

1
(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14}

提取信息中的中国邮政编码:

1
[1-9]{1}(\d+){5}

提取信息中的中国身份证号码:

1
\d{18}|\d{15}

提取信息中的整数:

1
\d+

提取信息中的浮点数(即小数):

1
(-?\d*)\.?\d+

提取信息中的任何数字 :

1
(-?\d*)(\.\d+)?

提取信息中的中文字符串:

1
[\u4e00-\u9fa5]*

提取信息中的双字节字符串 (汉字):

1
[^\x00-\xff]*

提取日期(2013-02-12):

1
\d{4}-\d{1,2}-\d{1,2}