博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Jsoup进阶选择器
阅读量:5021 次
发布时间:2019-06-12

本文共 1646 字,大约阅读时间需要 5 分钟。

package com.open1111.jsoup;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo03 {

public static void main(String[] args) throws Exception{

CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例
HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例
CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求
HttpEntity entity=response.getEntity(); // 获取返回实体
String content=EntityUtils.toString(entity, "utf-8");
response.close(); // 关闭流和释放系统资源
Document doc=Jsoup.parse(content); // 解析网页 得到文档对象
Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM
for(Element e:linkElements){
System.out.println("博客标题:"+e.text());
}
System.out.println("===============");
Elements hrefElements=doc.select("a[href]"); // 带有href属性的a元素
for(Element e:hrefElements){
System.out.println(e.toString());
}
System.out.println("===============");
Elements imgElements=doc.select("img[src$=.png]"); // 查找扩展名为.png的图片DOM节点
for(Element e:imgElements){
System.out.println(e.toString());
}
Element element=doc.getElementsByTag("title").first(); // 获取tag是title的所有DOM元素
String title=element.text(); // 返回元素的文本
System.out.println("网页标题是:"+title);
}
}

转载于:https://www.cnblogs.com/csy666/p/6414664.html

你可能感兴趣的文章
201671010130 2016-2017-2 《Java程序设计》第十七周学习小结
查看>>
SpringCloud的学习记录(2)
查看>>
信号处理过程中的几种常见傅里叶相关的变换
查看>>
官网对于sparkstreaming与kafka集成一些建议
查看>>
echarts 柱状图下钻功能
查看>>
磁盘调度算法
查看>>
感悟C语言的特点
查看>>
51Nod 1007:正整数分组(01背包)
查看>>
13 Technology Predictions For 2011
查看>>
Nuxeo Contributes Core to Eclipse Foundation
查看>>
threejs 坐标系
查看>>
HDU 1856
查看>>
课堂作业01--架构师的职责
查看>>
iOS计算富文本(NSMutableAttributedString)高度
查看>>
2017/09/15 ( 框架2)
查看>>
21张图诠释微软40年历史
查看>>
16种方法实现水平居中垂直居中
查看>>
工作中MNU010 至 MNU140表的名称及作用
查看>>
【Flask】Sqlalchemy limit, offset slice操作
查看>>
Ajax
查看>>