用 Java+Jsoup 轻松扒取网站 <tr><td> 内容，附代码及注意事项

在Java中，我们可以使用Jsoup库来解析HTML文档并提取<tr><td>内容。以下是一个简单的示例：首先，你需要在你的项目中添加Jsoup依赖。如果你的项目是Maven项目，可以在pom.xml文件中添加： ```xml <dependencies> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.3</version> </dependency> </dependencies> ``` 然后，你可以使用以下代码来抓取HTML中的<tr><td>内容： ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class WebScraper { public static void main(String[] args) { try { // 这里假设你要抓取的网页URL是"http://example.com" String url = "http://example.com"; // 使用Jsoup连接到网页 Document doc = Jsoup.connect(url).get(); // 获取所有的<tr>元素 Elements tableRows = doc.select("table tr"); // 遍历每一行 for (Element row : tableRows) { // 获取<td>元素 Elements tableData = row.select("td"); // 遍历每个<td>元素并打印其文本内容 for (Element data : tableData) { System.out.println(data.text()); } } } catch (Exception e) { e.printStackTrace(); } } } ``` 这个例子假设你正在处理一个标准的HTML表格，其中每个<td>元素都在<tr>元素内。如果你的HTML结构不同，可能需要调整选择器（如`.class`或`#id`）以匹配正确的元素。网络爬虫可能违反某些网站的使用条款，所以在抓取数据时，请确保你有权限这样做，并尊重网站的Robots.txt规则。 ######[AI写代码神器 | 413点数解答 | 2024-05-20 10:47:05]

服务商

更多选项

快捷项

自定义