SQL Server 2005：正则表达式使模式匹配和数据提取变得更容易

David Banister

本文讨论:

使用正则表达式进行高效的 SQL 查询
SQL Server 2005 对正则表达式的支持
从 SQL Server 使用 .NET Regex 类
在数据库中有效地使用正则表达式

本文使用了以下技术:
SQL Server 2005，.NET Framework

下载本文中所用的代码: Regex2007_02.exe (154 KB)
浏览在线代码

CLR 用户定义函数
模式匹配
数据提取
模式存储
匹配
在匹配项中进行数据提取
总结

尽管 T-SQL 对多数数据处理而言极其强大，但它对文本分析或操作所提供的支持却很少。尝试使用内置的字符串函数执行任何复杂的文本分析会导致难于调试和维护的庞大的函数和存储过程。有更好的办法吗？

实际上，正则表达式提供了更高效且更佳的解决方案。它在比较文本以便标识记录方面的益处显而易见，但是它的用途并不仅限于此。我们将介绍如何执行各种简单或令人惊异的任务，这些任务在 SQL Server? 2000 中被视为不切实际或不可能的，但现在由于 SQL Server 2005 对托管公共语言运行库 (CLR) 的支持而可行。

正则表达式对 SQL 来说并非新事物。Oracle 在 10g 中引进了内置的正则表达式，而且许多开源数据库解决方案也使用某种正则表达式库。实际上，正则表达式可在 SQL Server 的早期版本中使用，但是过程的效率很低。

如果使用 sp_OACreate 存储过程，则可以使用任何实现正则表达式的 OLE 自动化对象，但您必须首先创建一个 COM 对象，至少调用 IDispatch 一次，然后销毁此对象。多数情况下，这样做效率太低而且导致了太多性能问题。唯一的备选方案是创建扩展的存储过程。然而，现在有 SQLCLR，CLR 用户定义函数 (UDF)，它允许您使用 Microsoft? .NET Framework 创建高效的且减少了出错可能性的函数集。

CLR 用户定义函数

CLR 用户定义函数只是在 .NET 程序集中定义的静态方法（Visual Basic 中的共享函数）。要使用 SQLCLR 对象，您必须使用新的 CREATE ASSEMBLY 语句在 SQL Server 注册程序集，然后在程序集中创建指向其实现的各个对象。对函数而言，CREATE FUNCTION 语句已扩展为支持创建 CLR 用户定义函数。为了简化操作，使用 SQL Server Project 时，Visual Studio? 2005 将代表您处理所有注册过程。此类项目与多数 Visual Studio 项目不同，因为当您尝试调试（或启动而未调试）时，项目将被重新编译，生成的程序集以及其中定义的所有 SQLCLR 对象将随后部署到 SQL Server，然后注册到 SQL Server。然后，IDE 将运行为项目指定的测试脚本。可以在 SQL 脚本和您的 .NET 代码中设置断点，这样可以简化调试过程。

添加函数就像将新类添加到任何其他项目类型一样。仅将一个新项添加到项目并且在提示时选择“用户定义函数”。新方法则被添加到包含所有函数的局部类。新方法还将有一个适用它的 SqlFunction 属性。Visual Studio 使用此属性来创建注册函数所需的 SQL 语句。SqlFunction 中的 IsDeterministic、IsPrecise、DataAccess 和 SystemDataAccess 字段也由 SQL Server 用于各种用途。

模式匹配

确定字符串是否与模式匹配是对正则表达式的最简单应用，如图 1 所示，而且易于操作。

Figure 1 字符串匹配