04 | 慎重使用正则表达式
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
正则表达式在计算机科学中扮演着重要角色,它使用特定的元字符来检索、匹配和替换符合规则的字符串。文章介绍了正则表达式的基本概念和相关技术特点。正则表达式引擎是实现正则表达式的核心算法,目前有两种实现方式:DFA自动机和NFA自动机。文章对比了它们的优劣,指出DFA自动机的执行效率高于NFA自动机。此外,文章还详细解释了NFA自动机的匹配过程和回溯问题。通过实例说明,阐述了NFA自动机在匹配复杂正则表达式时可能引起的大量回溯,从而占用大量CPU时间,带来系统性能开销。这些内容有助于读者深入了解正则表达式的工作原理和性能特点。此外,文章还提供了几种正则表达式的优化方法,包括少用贪婪模式、多用独占模式、减少分支选择和减少捕获嵌套等。这些优化方法可以帮助开发人员提高正则表达式的性能。文章内容丰富,对于需要深入了解正则表达式工作原理和性能优化的读者具有重要的参考价值。
《Java 性能调优实战》,新⼈⾸单¥59
全部留言(69)
- 最新
- 精选
- Geek_99fab9我没有你们优秀,我就明白以后少用点正则😄
编辑回复: 不一样的优秀~恭喜你学到了精华!
2019-05-28276 - 陆离老师{1,3}的意思不是最少匹配一次,最多匹配三次吗,独占模式那个例子为什么会不匹配呢?
作者回复: 你好,老师这里更正一下独占模式的例子,落了一个字符。ab{1,3}+bc
2019-05-2818 - K\\?(([A-Za-z0-9-~_=%]++\\&{0,1})+)。老师好,麻烦您讲解一下实际您当时是怎么优化的吗?从哪个正则改成了哪个正则,为什么能有这种优化。谢谢老师。
作者回复: 如果是单个+的情况下,是最大匹配规则,遇到特殊字符串时,会出现回溯问题。这里增加了一个+,变成两个++,变成了独占模式,避免回溯。
2019-06-0117 - 没有小名的曲儿老师,那个(X|Y|Z)三次index是什么意思呢
作者回复: 指的是String中的indexof方法
2019-05-28217 - Liam文中提供的split性能消耗大的例子: \?(([A-Za-z0-9-~_=%]+)\&{0,1})$" 一个+ 表示量词,至少1个,不是独占模式吧,这里能否详细解释下优化点在哪里
作者回复: 你好,一个+表示匹配一个或多个,表示尽量多的匹配。我们这个再加一个+,\\?(([A-Za-z0-9-~_=%]++\\&{0,1})+)。提供的这个是没有优化的例子。
2019-05-2914 - ID171还是上边的例子,在字符后面加一个“+”,就可以开启独占模式。 text=“abbc” regex=“ab{1,3}+bc” 结果是不匹配,结束匹配,不会发生回溯问题。 这里的每一步做了什么,在最大匹配之后又发生了什么
作者回复: 1、匹配regex中的a和text中的a,匹配成功,继续匹配下一个字符; 2、匹配regex中的b{1,3}+,这个时候是最大匹配规则,也就是说text中会尽量多的去匹配b,直到满足3个b字符匹配成功,才会结束b{1,3}的匹配,这里可以直接匹配到text中的abb; 3、由于还没有满足最大3个的匹配需求,会继续匹配text中的c,发现不匹配,这个时候regex会跳到后面这个字符b,拿这个字符继续匹配; 4、regex中的b发现与text中的c不匹配,则进行回溯,回溯到text中的前一个字符b,发现匹配成功; 5、继续regex的下一个字符c与text中的c字符匹配,匹配成功,匹配结束。
2019-06-111212 - ABC看完明白了回溯是什么意思,我总结如下: 回溯就比如,食堂吃饭,你一下拿了3个馒头。吃完两个,发现第三个不是你想吃的口味的时候,又把第三个放回去,这就造成了资源浪费。 避免的办法就是,一开始就只拿两个,觉得需要了再去继续拿,也就是懒惰模式。
作者回复: 理解很到位,懒惰就是有拿到馒头就走,非常懒,还有馒头拿也不要了。
2019-05-309 - WL请问一下老师 "NFA 的状态数"这个概念感觉有点抽象我不太理解, 状态数是什么意思, 是NFA可以匹配的字符串的格式枚举吗?
作者回复: 你好 WL,就是不同的匹配格式,例如 ab{1,2}c,则状态数为2, 即 abc abbc。
2019-05-288 - 13524265609非捕获分组不用括号括起来不就好了么?
作者回复: 这个最直接了,效果是一样的
2019-09-095 - 郁陌陵老师,我理解独占模式可以减少回溯,但是不能避免回溯: String regex = "^ab{1,3}+c$"; String str = "abbc"; 这个例子里,b{1,3}+ 在匹配到 abb后,无法匹配c,是需要回溯的
作者回复: 是的,你理解的很到位,可以减少回溯,但是无法避免。这种第一次匹配会是匹配失败。具体的过程是text的a与regex的a匹配,然后继续text的b与b匹配,也匹配,这个时候由于是懒惰模式,要尽可能少的匹配,所以下一个text的b将与c匹配,匹配失败,这个时候又会回溯一次,将text的b与regex的b进行匹配,成功了,再将text中的c与c匹配,最后匹配成功。 这种方式与贪婪模式的匹配的方式是不一样的,虽然也发生了回溯,但回溯的方式不一样,是尽可能少的去匹配而发生的回溯。
2019-07-0542