public class HTMLExtractor extends Object
| 构造器和说明 |
|---|
HTMLExtractor() |
| 限定符和类型 | 方法和说明 |
|---|---|
static String |
buildMainHTML(org.jsoup.nodes.Element mainElement)
构建HTML内容
以分段元素p构建HTML内容
|
static org.jsoup.nodes.Element |
extractMainElement(String html,
String url)
抽取HTML主体元素
针对新闻文章网页生效
|
static Long |
extractPublishTime(org.jsoup.nodes.Element mainElement)
从正文主体中抽取发布时间
如果无法抽取返回null
|
public static org.jsoup.nodes.Element extractMainElement(String html, String url)
html - 网页HTMLurl - 网页URLpublic static Long extractPublishTime(org.jsoup.nodes.Element mainElement)
mainElement - 主体元素public static String buildMainHTML(org.jsoup.nodes.Element mainElement)
mainElement - 主体元素Copyright © 2022. All rights reserved.