</head> <body> <h1>正则表达式调出</h1> <p>正则调出提供了一种在正则表达式模式匹配过程中临时将控制权传递给脚本的方法. 关于 PCRE 标准调出功能的详细信息, 请参阅 <a href="http://www.pcre.org/pcre.txt">pcre.txt</a>.</p> <p>目前只有 <a href="../lib/RegExMatch.htm">RegExMatch</a> 和 <a href="../lib/RegExReplace.htm">RegExReplace</a> 支持正则调出.</p> <h2 id="toc">目录</h2> <ul> <li><a href="#syntax">语法</a></li> <li><a href="#callout-functions">正则调出函数</a></li> <li><a href="#EventInfo">EventInfo</a></li> <li><a href="#auto">自动调出</a></li> <li><a href="#remarks">备注</a></li> </ul> <h2 id="syntax">语法</h2> <p>在 AutoHotkey 中正则调出的语法为 <span class="regex">(?C<em>Number</em>:<em>Function</em>)</span>, 其中 <em>Number</em> 和 <em>Function</em> 都是可选的. 只有在指定了 <em>Function</em>才允许使用冒号 ':', 而如果省略 <em>Number</em> 则冒号也可以省略. 如果指定的 <em>Function</em> 不是<a href="../misc/Functor.htm">函数对象</a>的名称, 则会出现编译错误且不会开始模式匹配.</p> <p>如果省略 <em>Function</em>, 则必须定义默认的正则调出函数名 <b>pcre_callout</b>. 如果没有定义 <em>pcre_callout</em>, 那么省略 <em>Function</em> 的正则调出将被忽略.</p> <h2 id="callout-functions">正则调出函数</h2> <pre class="Syntax"><i>MyFunction</i>(Match, CalloutNumber, FoundPos, Haystack, NeedleRegEx) { ... }</pre> <p>正则调出函数最多可以定义 5 个参数:</p> <ul> <li><b>Match:</b> 接收 <a href="../lib/RegExMatch.htm#MatchObject">RegExMatchInfo</a> 对象, 其中包含到目前为止的匹配信息.</li> <li><b>CalloutNumber:</b> 接收正则调出的 <em>Number</em>.</li> <li><b>FoundPos:</b> 接收当前潜在匹配的位置.</li> <li><b>Haystack:</b> 接收传递给 RegExMatch 或 RegExReplace 的 <em>Haystack</em>.</li> <li><b>NeedleRegEx:</b> 接收传递给 RegExMatch 或 RegExReplace 的 <em>NeedleRegEx</em>.</li> </ul> <p>这些名称只是提示性的. 实际中可以使用其他的名称.</p> <p class="warning"><strong>警告:</strong> 不支持在 <a href="../lib/RegExReplace.htm">RegExReplace</a> 或 <a href="../lib/RegExMatch.htm">RegExMatch</a> 在被调用期间更改其输入参数, 这可能会导致不可预测的行为.</p> <p>模式匹配是继续进行或失败, 取决于正则调出函数的返回值:</p> <ul> <li>如果函数返回 <b>0</b> 或没有返回数值, 则匹配操作如常进行.</li> <li>如果函数返回 <b>1</b> 或更大的数字, 则在当前位置匹配失败, 但继续进行剩余部分的匹配测试.</li> <li>如果函数返回 <b>-1</b>, 则匹配中止.</li> <li>如果函数返回小于 -1, 的值, 则它被视为 PCRE 错误码且匹配中止. 这将导致 RegExMatch 和 RegExReplace 抛出异常; 异常对象的 <em>Extra</em> 属性包含错误码.</li> </ul> <p>例如:</p> <pre>Haystack := "The quick brown fox jumps over the lazy dog." RegExMatch(Haystack, "i)(The) (\w+)\b(?CCallout)") Callout(m,*) { MsgBox "m[0]=" m[0] "`nm[1]=" m[1] "`nm[2]=" m[2] return 1 }</pre> <p>在上面的例子中, 对于匹配正则调出之前的那部分模式的每个子字符串都会调用一次 <em>Callout</em>. 使用 <span class="regex">\b</span> 排除匹配到不完整的单词, 例如 <em>The quic</em>, <em>The qui</em>, <em>The qu</em>, 等等.</p> <p>如果在调出期间修改了 <em>RegEx</em> 函数的任何输入参数, 则该行为是未定义的.</p> <h2 id="EventInfo">EventInfo</h2> <p>通过 <b>A_EventInfo</b> 访问 pcre_callout_block 结构可以获得附加信息.</p> <pre>version := NumGet(A_EventInfo, 0, "Int") callout_number := NumGet(A_EventInfo, 4, "Int") offset_vector := NumGet(A_EventInfo, 8, "Ptr") subject := NumGet(A_EventInfo, 8 + A_PtrSize, "Ptr") subject_length := NumGet(A_EventInfo, 8 + A_PtrSize*2, "Int") start_match := NumGet(A_EventInfo, 12 + A_PtrSize*2, "Int") current_position := NumGet(A_EventInfo, 16 + A_PtrSize*2, "Int") capture_top := NumGet(A_EventInfo, 20 + A_PtrSize*2, "Int") capture_last := NumGet(A_EventInfo, 24 + A_PtrSize*2, "Int") pad := A_PtrSize=8 ? 4 : 0 <em>; 补足 64 位的数据偏移.</em> callout_data := NumGet(A_EventInfo, 28 + pad + A_PtrSize*2, "Ptr") pattern_position := NumGet(A_EventInfo, 28 + pad + A_PtrSize*3, "Int") next_item_length := NumGet(A_EventInfo, 32 + pad + A_PtrSize*3, "Int") if (version &gt;= 2) mark := StrGet(NumGet(A_EventInfo, 36 + pad + A_PtrSize*3, "Int"), "UTF-8") </pre> <p>有关详情, 请参阅 <a href="http://www.pcre.org/pcre.txt">pcre.txt</a>, <a href="../lib/NumGet.htm">NumGet</a> 和 <a href="../Variables.htm#PtrSize">A_PtrSize</a>.</p> <h2 id="auto">自动调出</h2> <p>在模式的选项中包含 <strong>C</strong> 来启用自动调出模式. 在这种情况下的正则调出相当于在模式里的每项前插入了 <span class="regex">(?C255)</span>. 例如, 下面的模板可以用来调试正则表达式:</p> <pre><em>; 调用带有自动调出选项 C 的 RegExMatch.</em> RegExMatch("xxxabc123xyz", "C)abc.*xyz") <em>; 定义默认的正则调出函数.</em> pcre_callout(Match, CalloutNumber, FoundPos, Haystack, NeedleRegEx) { <em>; 请参阅 pcre.txt 了解这些字段的说明.</em> start_match := NumGet(A_EventInfo, 12 + A_PtrSize*2, "Int") current_position := NumGet(A_EventInfo, 16 + A_PtrSize*2, "Int") pad := A_PtrSize=8 ? 4 : 0 pattern_position := NumGet(A_EventInfo, 28 + pad + A_PtrSize*3, "Int") next_item_length := NumGet(A_EventInfo, 32 + pad + A_PtrSize*3, "Int") <em>; 指出 &gt;&gt;当前匹配&lt;&lt;.</em> _HAYSTACK:=SubStr(Haystack, 1, start_match) . "&gt;&gt;" SubStr(Haystack, start_match + 1, current_position - start_match) . "&lt;&lt;" SubStr(Haystack, current_position + 1) <em>; 指出 &gt;&gt;要计算的下一个项目&lt;&lt;.</em> _NEEDLE:= SubStr(NeedleRegEx, 1, pattern_position) . "&gt;&gt;" SubStr(NeedleRegEx, pattern_position + 1, next_item_length) . "&lt;&lt;" SubStr(NeedleRegEx, pattern_position + 1 + next_item_length) ListVars <em>; 按下 Pause 继续.</em> Pause }</pre> <h2 id="remarks">备注</h2> <p>正则调出在当前的半线程中执行, 但在正则调出函数返回后将恢复 A_EventInfo 原来的值.</p> <p>在一些可以确定不会发生匹配的情况下, 则会对 PCRE 进行优化来提早中止. 对于在这些情况中的所有正则调出, 可能需要在模式的开始处指定 <span class="regex">(*NO_START_OPT)</span> 来禁用这种优化.</p> </body> </html>