<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class="">I recently read this post [1] where it shows how to define a regular expression (using the PCRE) syntax that looks very much like a proper grammar. A reduced example for the post looks like this:</div><div class=""><br class=""></div><div class=""><div class="">/</div><div class="">    (?(DEFINE)</div><div class="">        (?<addr_spec> (?&local_part) @ (?&domain) )</div><div class="">        (?<local_part> (?&dot_atom) | (?&quoted_string) | (?&obs_local_part) )</div><div class="">        (?<domain> (?&dot_atom) | (?&domain_literal) | (?&obs_domain) )</div><div class="">    )</div><div class="">    ^(?&addr_spec)$</div><div class="">/x</div></div><div class=""><br class=""></div><div class="">The three capture groups “addr_spec”, “local_part” and “domain” would be the grammar rules. It uses the (?&name) syntax to refer to another subgroup. TextMate  does not support that syntax but supports the following syntax: \g<name>, which the documentation refers to as Subexp call [2]. This syntax seems to have the same semantics. (DEFINE) is something that seems to be PCRE specific and basically means that the following patterns will not be tried to match. It basically gives a place to define subpatterns. I didn’t find anything corresponding in the TextMate regular expression syntax but defining an optional group can be used as a workaround.</div><div class=""><br class=""></div><div class="">Here’s an example where I tried this technique to match a module declaration in the D language:</div><div class=""><br class=""></div><div class=""><div class="">(?:</div><div class="">  (?<module_declaration>(?<module>module)\s+\g<module_fully_qualified_name>\s*;)</div><div class="">  (?<module_fully_qualified_name>\g<module_name>|\g<packages>\.\g<module_name>)</div><div class="">  (?<module_name>\g<identifier>)</div><div class="">  (?<packages>\g<package_name>|\g<package_name>\.\g<packages>)</div><div class="">  (?<package_name>\g<identifier>)</div><div class="">  (?<identifier>\w+)</div><div class="">)?</div><div class="">\g<module_declaration></div></div><div class=""><br class=""></div><div class="">This is exactly according to the specified grammar [3] and it seems to be working as expected. Not sure if the optional group workaround causes some performance implications.</div><div class=""><br class=""></div><div class="">This technique seems like it could be a viable alternative to supporting variables in the TextMate grammar as has been discussed before. What’s missing from this to make it really useful would be something like (DEFINE) in PCRE and a place in the TextMate grammar to place generic patterns used in multiple rules, like a pattern for identifiers.</div><div class=""><br class=""></div>[1] <a href="https://nikic.github.io/2012/06/15/The-true-power-of-regular-expressions.html" class="">https://nikic.github.io/2012/06/15/The-true-power-of-regular-expressions.html</a><div class="">[2] <a href="https://macromates.com/manual/en/regular_expressions" class="">https://macromates.com/manual/en/regular_expressions</a></div><div class="">[3] <a href="https://dlang.org/spec/grammar.html#ModuleDeclaration" class="">https://dlang.org/spec/grammar.html#ModuleDeclaration</a><br class=""><div class=""><br class=""><div class="">
<div style="color: rgb(0, 0, 0); font-family: Helvetica; font-size: 14px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px;">-- <br class="">/Jacob Carlborg</div>

</div>

<br class=""></div></div></body></html>