java jsoup解析html标签-尊龙凯时首页
1.引入maven依赖
org.jsoup
jsoup
1.10.2
2.代码
import java.io.bufferedreader;
import java.io.filereader;
import java.io.ioexception;
import org.jsoup.jsoup;
import org.jsoup.nodes.document;
import org.jsoup.select.elements;
public class jsouptest {
/**
* 读html文件
* @param pathname
* @return
*/
public static string readhtml(string path) {
stringbuffer buff = new stringbuffer();
// 建立一个对象,它把文件内容转成计算机能读懂的语言
try (filereader reader = new filereader(path); bufferedreader br = new bufferedreader(reader)) {
string line;
int count = 0;
while ((line = br.readline()) != null) {
// 一次读入一行数据
buff.append(line);
count ;
}
} catch (ioexception e) {
e.printstacktrace();
}
return buff.tostring();
}
/**
* jsoup方法中 text() :用于获取获取标签的文本 html() :获取标签里面的所有字符串包括html标签
* attr(attributekey)获取属性里面的值,参数是属性名称
*/
public static void main(string[] args) {
try {
// 本地html存放路径
string file_path = "d:\\index.html";
// 读取html获取文档
string html = readhtml(file_path);
document document = jsoup.parse(html);
// 通过select获取元素
// 一个页面中的class可能会重复,为避免取多余的数据,
// 先取部分区域的数据,然后再从这部分区域数据中取出真正需要的数据
// 格式: class用"#"、id用"."、标签用h1 例如: div.title_area>h1
elements div = document.select(".content_18313");// 外层部分区域标签内的数据
elements title = div.select(".title_area>h1");// 真正需要标签内的数据
system.out.println("打印最终结果:" title.text());
} catch (exception e) {
e.printstacktrace();
}
}
}
总结
以上是尊龙凯时首页为你收集整理的java jsoup解析html标签_java中使用 jsoup 提取本地html页面的标签内容的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: