ASP.NET(C#) 如何去除 HTML 标签

作者:vkvi 来源:千一网络(原创) 日期:2008-3-26

在做搜索引擎时,往往需要把搜索的结果经过处理再存入数据库。

这其中一个问题就是去除 HTML 标签。

我们使用正则表达式来实现,类 Regex 的名称空间是:

System.Text.RegularExpressions

示例:

string str = @"<a href=""
"" target=""_blank"">cftea</a>";
Regex regex = new Regex(@"<(.|\n)+?>");
str = regex.Replace(str, "");
MessageBox.Show(str);

说明

Regex 默认支持多行,但大小写敏感,要忽略大小写可在构造函数的第二个参数中设置。这里由于未涉及大小写,故可以不理会。

+? 表示非贪婪匹配,也就是说要求匹配的字符串尽可能的短。

无法正确去除某些非标准的 HTML 代码,比如:<a href=">">cftea</a>,结果将是:">cftea

相关阅读

你前面那位网友看了:你们搞互联网的一个比一个会吹牛X

▲▲▲嘿,欢迎转载传播本站原创文章,尽量保留来源噢。▲▲▲

文章评论
标题:必填
内容:
本站永远终止与捏造“罪名”不支付广告费的某度联盟合作。
vkvi
vkvi

作者简介: vkvi,致力于 .NET Web 开发、移动开发的技术推广,在 .NET、SQL Server、Windows Server 等方面有深入研究和丰富经验,10 年间共计撰写文章 4000 余篇。 主持金融、国土、农业、电商等多个行业项目执行, 推行“技术提升生产力、人心决定成功率”的管理理论。 联系他