Python爬取百度学术300条文献信息并可视化各年份文献数量
```python import requests from bs4 import BeautifulSoup import csv import time from selenium import webdriver from pyecharts import Scatter # 定义函数来爬取单个关键词的文献信息 def crawl_single_keyword(keyword, num): driver = webdriver.Chrome() # 请确保已安装 Chrome 浏览器和相应驱动 url = f'http://xueshu.baidu.com/s?wd={keyword}&pn=0' driver.get(url) data = [] for i in range(num // 10): soup = BeautifulSoup(driver.page_source, 'html.parser') articles = soup.find_all('div', class_='sc_content') for article in articles: title = article.find('h3', class_='t c_font').text author = article.find('div', class_='sc_info').text.split('-')[0].strip() abstract = article.find('div', class_='c_font').text keywords = article.find('div', class_='sc_tags').text link = article.find('h3', class_='t c_font').find('a')['href'] source_journal = article.find('div', class_='sc_info').text.split('-')[1].strip() publish_year = article.find('div', class_='sc_info').text.split('-')[2].split(' ')[0].strip() citation = article.find('div', class_='sc_cite_cont').text doi = '' # 可能需要进一步解析获取 data.append([title, author, abstract, keywords, link, source_journal, publish_year, citation, doi]) next_button = driver.find_element_by_link_text('下一页') next_button.click() time.sleep(2) # 适当延迟,避免被反爬 driver.quit() return data # 定义函数来爬取两个关键词的文献信息 def crawl_double_keywords(keyword1, keyword2, num): data1 = crawl_single_keyword(keyword1, num) data2 = crawl_single_keyword(keyword2, num) return data1 + data2 # 爬取数据 data1 = crawl_single_keyword('数字经济', 100) data2 = crawl_double_keywords('数字技术', '数字化', 100) data = data1 + data2 # 保存数据到 CSV 文件 with open('academic_data.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['文献名称', '作者', '', '关键词', '文献链接', '来源期刊', '发表年份', '引用量', 'doi']) writer.writerows(data) # 统计各年份文献数量 year_count = {} for row in data: year = row[6] if year in year_count: year_count[year] += 1 else: year_count[year] = 1 # 获取最近 10 个年份 recent_years = sorted(year_count.keys(), reverse=True)[:10] # 准备绘图数据 x = [year for year in recent_years] y = [year_count[year] for year in recent_years] # 绘制散点图 scatter = Scatter("文献数量分布") scatter.add("", x, y) scatter.render() # 额外注意点: # 1. 百度学术可能有反爬虫机制,注意爬取频率和策略,避免被封禁。 # 2. 网页结构可能会变化,代码中的解析部分可能需要根据实际情况调整。 # 3. 对于一些复杂的网页元素获取,可能需要更细致的处理逻辑。 ``` ######[AI写代码神器 | 858点数解答 | 2024-12-10 03:59:45]
- Python 利用 Pandas 分析订单数据:逐年计算订单数量与销售金额总和(字节豆包 | 260点数解答 | 2024-11-10 14:26:05)315
- Python 代码实现按年份分析订单数据:销售指标全解读(阿里通义 | 701点数解答 | 2024-11-10 14:29:10)295
- 易语言读取文本文件并显示到超级列表框:代码示例与注意要点(DeepSeek | 571点数解答 | 2025-08-23 20:54:40)286
- 易语言:读取并显示特定文本到超级列表框,还能增加新数据的方法与要点(DeepSeek | 1317点数解答 | 2025-08-23 20:58:40)279
- Python 轻松处理教学、后勤、行政账目数据:提取年份新操作 (字节豆包 | 69点数解答 | 2024-10-31 17:39:14)319
- Python 运行报错:urllib3 网络连接创建失败,原因及排查建议(字节豆包 | 161点数解答 | 2024-10-31 00:39:36)547
- 创意编程作品】现场主题:人工智能与生活。 请使用 Python 完成一个具有完整功能的作品,形式不限:命令行交互程序、turtle 海龟绘图、简单数据分析 / 可视化、或调用预置模型的简单 AI 应用等均可。 请将你的完整代码粘贴到下方文本框,并在代码末尾用注释简要说明:作品功能、如何运行、用到的关键知识点。 ✍️ 好问题(主观题):请围绕题目要求作答,不少于 300 字,由 AI 自动评分。 (DeepSeek | 2126点数解答 | 2026-05-30 13:39:13)18
- mallshop商城网站:数据库设计与强大业务功能全揭秘(GPT | 257点数解答 | 2024-12-09 14:08:15)321
- Java:抽象类 Vehicle 及子类 Car、MotorBike 实战演示(讯飞星火 | 440点数解答 | 2024-06-06 23:18:54)351
- 用 Pandas 深度剖析数据:从读取到统计分析全流程实战(GPT | 642点数解答 | 2024-06-30 15:39:49)404
- 用 Pandas 深入分析招聘数据:从数据读取到可视化全流程解析(GPT | 1539点数解答 | 2024-06-30 15:56:50)426
- 一键分享网站开发:支持百度QQ抖音的后端与数据库实现(DeepSeek | 2971点数解答 | 2026-06-11 10:11:27)30