使用Jsoup过滤HTML标签,获取纯文本

简介: 版权声明:欢迎转载,请注明沉默王二原创。 https://blog.csdn.net/qing_gee/article/details/78735457 通常情况下,把HTML富文本内容保存到数据库字段时,会自带一些HTML标签,然后将这些内容再次显示到网页上时,就能够保持文本在富文本中编辑时的HTML格式。
版权声明:欢迎转载,请注明沉默王二原创。 https://blog.csdn.net/qing_gee/article/details/78735457

通常情况下,把HTML富文本内容保存到数据库字段时,会自带一些HTML标签,然后将这些内容再次显示到网页上时,就能够保持文本在富文本中编辑时的HTML格式。

这种做法毫无疑问是没有问题的,但有的时候,我们需要将HTML标签去掉,只取纯文本内容。这个时候,该怎么做呢?

比如说有这样一段简单的HTML富文本内容,带有p标签(它表示p标签内部的文本是一个段落),但有的时候,我们在显示该内容的缩略文本时,并不需要p标签,也就是说,只想显示“你好呀,沉默王二,请坚持写作!”

注:通常情况下,HTML文本内容要比只有p标签这个复杂!

<p>你好呀,沉默王二,请坚持写作!</p>

假如要你来实现这个需求,你能想到的解决办法是什么呢?

1)存入数据库时,既存入<p>你好呀,沉默王二,请坚持写作!</p>,也存入你好呀,沉默王二,请坚持写作!在取的时候按需索取。

2)存入数据库时,只存入<p>你好呀,沉默王二,请坚持写作!</p>,在显示的时候,如果需要p标签,就不过滤p标签;如果不需要p标签,就通过一定的方法过滤掉p标签。过滤的时机有三处,其一是从数据库取数据时通过SQL过滤(但这会增加数据库压力);其二是在服务器端向客户端返回数据时过滤掉HTML标签,再回传给客户端;其三是在view视图呈现时调用formatter进行过滤,我认为这种方法也是最好的。

第一种方案的解决办法, 比如说使用UEditor,如下图。

这里写图片描述

使用UEditor富文本编辑器的话,可以直接通过UEditor提供的两个API将带有HTML标签的内容和没有HTML标签的纯文本内容获取到。

第二种方案的解决办法,通过SQL过滤的方法我暂时还不会,另外它不是最优的解决方案。

第二、第三的区别在于契机不同,但服务器端过滤HTML标签的方法其实是一样的。

首先告诉大家的解决方案是使用jsoup

官网地址为:https://jsoup.org/
截图如下:

这里写图片描述

如果是传统项目的话,在「getting started」处下载jar包添加到项目构建路径下;
如果是Maven 构建项目的话,把一下内容粘贴到pom.xml 文件的依赖节点下。

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.2</version>
</dependency>

原HTML富文本内容和使用jsoup过滤后的结果如下图所示:

这里写图片描述

具体代码实现非常简单,只有一行代码:

System.out.println(Jsoup.parse(unsafe).text());

使用jsoup过滤的结果是100%的纯文本。而使用一般使用正则表达式去HTML的做法在一定情况并不能保证是绝对的纯文本。

public static String replaceHtml(String html) {
    if (isBlank(html)){
        return "";
    }
    String regEx = "<.+?>";
    Pattern p = Pattern.compile(regEx);
    Matcher m = p.matcher(html);
    String s = m.replaceAll("");
    return s;
}

如果想使用formatter,请参照JSP标签库Taglib之自定义function篇,轻松实现日期格式化


原文是在4个月以前编辑的,今天重新整理了一下,感觉清晰多了
这是我的微信公众号,希望你能关注一下,一起加油!

沉默王二

相关文章
|
22天前
|
前端开发
HTML中的pre标签表示空格或换行
HTML中的pre标签表示空格或换行
|
14天前
HTML_表单标签
HTML_表单标签
16 0
|
1天前
|
存储 前端开发 JavaScript
【Web 前端】如何找到所有 HTML select 标签的选中项?
【5月更文挑战第2天】【Web 前端】如何找到所有 HTML select 标签的选中项?
|
3天前
|
编解码 移动开发 前端开发
【专栏:HTML与CSS移动端开发篇】使用Viewport Meta标签优化移动端显示
【4月更文挑战第30天】本文介绍了HTML的Viewport Meta标签在移动端网页优化中的作用。Viewport Meta标签定义了视口属性,如宽度、高度、初始缩放等,解决移动设备因屏幕尺寸差异导致的显示问题。主要属性包括width(常用device-width)、initial-scale、maximum-scale、minimum-scale和user-scalable。
|
3天前
|
移动开发 前端开发 开发者
【专栏:HTML进阶篇】网页结构与语义化标签进阶
【4月更文挑战第30天】提升网页结构清晰度和无障碍访问性,有利于SEO。这些标签为屏幕阅读器提供额外上下文,简化CSS样式设计,避免无意义的&lt;div&gt;和&lt;span&gt;。正确使用语义化标签是现代网页开发的关键,能创造更优质、易访问和优化的Web体验。
|
5天前
|
前端开发 数据安全/隐私保护
Day-1 HTML基本标签和CSS常用样式
Day-1 HTML基本标签和CSS常用样式
|
14天前
|
前端开发 容器
HTML_块级标签
HTML_块级标签
12 0
|
14天前
HTML_行内标签
HTML_行内标签
13 0
|
14天前
|
前端开发 JavaScript 开发者
html标签的样式
【4月更文挑战第19天】html标签的样式
13 2
|
14天前
|
JavaScript 前端开发 SEO
html标签
【4月更文挑战第19天】html标签
20 1