`
philix
  • 浏览: 80646 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

(HTML选择性过滤) java正则,过滤掉HTML标签,但保留指定的标签如 a,img,p ( Jakarta ORO实现, perl全兼容正则)

阅读更多
package lix.util;
import org.apache.oro.text.perl.*;  


class CleanHtml {
	public static String clean(String html){
		StringBuffer buffer = new StringBuffer();  
		Perl5Util preg = new Perl5Util();  
		preg.substitute(buffer,"s/<script[^>]*?>.*?<\\/script>//gmi",html);  
		html =buffer.toString();
		buffer.setLength(0);
		
		preg.substitute(buffer,"s#<[/]*?(?!a|img|br|/a|table|/table|tr|/tr|td|/td)[^<>]*?>#abc#gmi",html);
		//(?# a,/a,img/br ...标签之外,都删除)
		html =buffer.toString();
		buffer.setLength(0);
		/*
		preg.substitute(buffer,"s/([\r\n])[\\s]+//gmi",html);  
		html =buffer.toString();
		buffer.setLength(0);
		*/
		return html;
	}
}
/*
*/
 

 

(?!exp) 匹配后面跟的不是exp的位置


 

 

 

...

  • 大小: 21.2 KB
分享到:
评论
1 楼 xiaozhen57520 2010-12-22  
您好 请教问题
“(HTML选择性过滤) java正则,过滤掉HTML标签,但保留指定的标签如 a,img,p ( Jakarta ORO实现, perl全兼容正则)”

方便加我 qq:308920588 李仁娟


相关推荐

Global site tag (gtag.js) - Google Analytics