一、替换所有的 等 标签
/** * @author liushuaic * @date 2016-06-27 17:35 * @desc 替换&xxx;标签 * */ public static String replaseAndCharachter(String str){ return str.replaceAll("&{1}[A-Za-z]+[;]{1}", ""); }
二、获取html 中所有的图片
* * 获取img标签中的src值 * @param content * @return */ public static ListgetImgSrc(String content){ List list = new ArrayList (); //目前img标签标示有3种表达式 // //开始匹配content中的 标签 Pattern p_img = Pattern.compile("<(img|IMG)(.*?)(/>|>|>)"); Matcher m_img = p_img.matcher(content); boolean result_img = m_img.find(); if (result_img) { while (result_img) { //获取到匹配的 标签中的内容 String str_img = m_img.group(2); //开始匹配 标签中的src Pattern p_src = Pattern.compile("(src|SRC)=(\"|\')(.*?)(\"|\')"); Matcher m_src = p_src.matcher(str_img); if (m_src.find()) { String str_src = m_src.group(3); list.add(str_src); } //结束匹配 标签中的src //匹配content中是否存在下一个 标签,有则继续以上步骤匹配 标签中的src result_img = m_img.find(); } } return list; }
三、替换所有html标签
/** * @author liushuaic * @date 2016-06-24 10:35 * @desc 替换所有html 标签为空 * **/ public static String replaceAllHtmlTagContent(String htmlContent){ String regxpForHtml="<([^>]*)>"; return htmlContent.replaceAll(regxpForHtml, ""); }