在贝壳实习已经95天了,之前参与规划的中台产品一期已经上线,目前已经进入使用和二期迭代的阶段,需要我们产品去体验使用,很重要的一环是利用正则表达式(Pattern)进行规则配置。
这方面我是完全小白,在mentor的讲授,自我查找资料,练习写Pattern的过程,我和小伙伴一起沉淀出了“正则表达式(Pattern)的快速入门自学手册”,征得mentor和小伙伴的同意,在这里分享给大家。
一、正则表达式(Pattern)的定义
正则表达式 ,又称规则表达式 , 通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
二、规则与模型的优劣比较
正则表达式和机器学习模型都可用于匹配文本,需要根据检索文本的特性来决策使用哪一种方式来匹配,二者的比较如下:
有时候,二者也会同时应用,规则用于保准确率、模型用于保召回率。
三、正则表达式的应用领域
智能对话:匹配用户提问,然后给出符合逻辑的回答
文本检测:检索符合某些特征、规则的文本
推荐算法:如抖音推荐算法,首先会给用户打上标签,然后将用户的标签特征字符化,匹配对应的推荐内容
搜索:匹配用户提问,再给出符合逻辑的搜索结果
杀毒:匹配病毒库文件名,从而识别病毒库
四、正则表达式符号语法
(一)常用符号
注意:所有符号都必须是英文格式!
(二)全部符号
(二)全部符号
五、正则表达式撰写流程
搜集 正样本 ,总结其中的语法规则
根据总结的语法规则,撰写对应的正则表达式
测试所写的正则表达式是否准确(这里分享一个自用正则表达式测试网站,可以很有效地检查自己写的Pattern是否正确 https://tool.oschina.net/regex/
)
最后感谢mentor 常超 | 人人都是产品经理 (woshipm.com) 的指导,还有并肩作战的小鱼姐,在我作为一名产品经理成长路上的帮助。