短小精悍的JavaHtml解析器Jsoup-阿里云开发者社区

短小精悍的JavaHtml解析器Jsoup

2017-11-21 1649

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

短小精悍的Jsoup组件让Java解析HTML更加人性化，通俗易懂的Css选择风格的结点筛选，原生的DOM操作，让jQuery用户倍感亲切。

Jsoup:http://jsoup.org/

选择Jsoup绝对是一个正确的明智的选择，一个小小的Jar包，几十个类解决了Java解析HTML，生成HTML，各种转换，修改，结点，属性筛选，过滤，抓取等功能，更让Web开发者舒服的是Safe，简洁的几行代码解决了XSS问题。

通过下面几个例子感受Jsoup的简洁，强大之处。

1.获取指定URL的base路径

 
        /**
       
        * 获取网页的Base地址 
       
        * 
       
        * @throws IOException 
       
        */ 
       
        @Ignore 
       
        @Test 
       
        public 
        void 
        test1() 
        throws 
        IOException { 
       
        Document doc = Jsoup.connect(
        "http://www.fx368.com/index/"
        ).get(); 
       
        System.out.println(doc.baseUri()); 
       
        }

注：结果输出：http://www.fx368.com/index/

通过指定URL获取链接，通过链式操作得到HTML文档，然后就是Jsoup为我们提供的一系列方法来进行DOM的节点操作。

2.获取指定URL网页上img标签的src值

 
        /**
       
        * 抓取网页上的img标签的src 
       
        * 
       
        * @throws IOException 
       
        */ 
       
        @Ignore 
       
        @Test 
       
        public 
        void 
        test2() 
        throws 
        IOException { 
       
        Document doc = Jsoup.connect(
        "http://www.fx368.com/index/"
        ).get(); 
       
        Elements ele = doc.getElementsByTag(
        "img"
        ); 
       
        for 
        (Element e : ele) { 
       
        System.out.println(e.attr(
        "src"
        )); 
       
        } 
       
        }

注：Element.attr("src")获取的结果是DOM中实际的值比如："/img/header.png"

Element.absUrl("src")获取的结果是src的正真的值比如："http://www.fx368.com/img/header.png".

2.通过Css选择器方式筛选节点

 
        /**
       
        * 抓取51cto博客博文列表 
       
        * 
       
        * @throws IOException 
       
        */ 
       
        @Ignore 
       
        @Test 
       
        public 
        void 
        test3() 
        throws 
        IOException { 
       
        Document doc = Jsoup.connect( 
       
        "http://aiilive.blog.51cto.com/all/1925756"
        ).get(); 
       
        Elements elements = doc.select(
        "div.modCon"
        ).select(
        "ul"
        ).select(
        "li"
        ) 
       
        .select(
        "span.artList_tit"
        ).select(
        "a"
        ); 
       
        ListIterator<Element> iter = elements.listIterator(); 
       
        System.out.println(doc.baseUri()); 
       
        while 
        (iter.hasNext()) { 
       
        System.out.println(iter.next().absUrl(
        "href"
        )); 
       
        } 
       
        }

看到上面的doc.xxx后跟的一系列select方法，其中有按标签，标签+样式筛选来获取需要的结点元素，然后获取元素的属性。

这里的select("xxx")方法的参数是一个字符串，字符串的规则和jQuery操作DOM的选择器规则一致。

上面代码实现了指定用户的博文地址列表链接信息，关于如何书写选择器的条件需要分析实际情况下的DOM结构。

4.获取指定的一篇博文

 
        /**
       
        * 获取一篇博文的正文内容 
       
        * 
       
        * @throws IOException 
       
        */ 
       
        @Ignore 
       
        @Test 
       
        public 
        void 
        test6() 
        throws 
        IOException { 
       
        Document doc = Jsoup.parse(
        new 
        URL( 
       
        "http://aiilive.blog.51cto.com/1925756/1024304"
        ), 
        10000
        ); 
       
        Elements head = doc.select(
        "div.showHead"
        ); 
       
        String title = head.select(
        "div.showTitle"
        ).text(); 
       
        System.out.println(title); 
       
        Elements tag = doc.select(
        "div.showTags"
        ); 
       
        Elements copyright = doc.select(
        "div.CopyrightStatement lh22"
        ); 
       
        Elements content = doc.select(
        "div.showContent"
        ); 
       
        StringBuilder sb = 
        new 
        StringBuilder(); 
       
        sb.append(head.html()); 
       
        sb.append(tag.html()); 
       
        sb.append(copyright.html()); 
       
        sb.append(content.html()); 
       
        Document blog = Jsoup.parseBodyFragment(sb.toString()); 
       
        System.out.println(blog.html()); 
       
        }