Python 借助 WordNet 计算“开心”与“悲伤”句子语义相似度全解析
要使用Python编程计算两个句子的语义相似度,我们可以利用WordNet和一些自然语言处理(NLP)库。以下是关键步骤、代码实现及结果分析: 1. 关键步骤 1. 文本预处理:将句子分词并去除停用词。 2. 词形还原:将单词还原到其基本形式。 3. 词义消歧:为每个单词找到其在WordNet中的合适义项。 4. 计算相似度:使用WordNet提供的相似度度量方法来计算两个句子的相似度。 2. 代码实现及关键代码解释 ```python import nltk from nltk.corpus import wordnet as wn from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import numpy as np # 下载必要的资源 nltk.download('punkt') nltk.download('wordnet') nltk.download('stopwords') nltk.download('omw-1.4') # 初始化工具 lemmatizer = WordNetLemmatizer() stop_words = set(stopwords.words('english')) def preprocess(sentence): # 分词 words = word_tokenize(sentence) # 去除停用词并词形还原 processed_words = [lemmatizer.lemmatize(word.lower()) for word in words if word.isalnum() and word.lower() not in stop_words] return processed_words def get_synsets(word): # 获取单词的所有同义词集 return wn.synsets(word) def sentence_similarity(sentence1, sentence2): words1 = preprocess(sentence1) words2 = preprocess(sentence2) synsets1 = [get_synsets(word) for word in words1] synsets2 = [get_synsets(word) for word in words2] max_sim = -1.0 for synsets1_list in synsets1: for synsets2_list in synsets2: for syn1 in synsets1_list: for syn2 in synsets2_list: sim = wn.path_similarity(syn1, syn2) if sim is not None and sim > max_sim: max_sim = sim return max_sim if max_sim != -1 else 0.0 # 输入句子 sentence1 = "i am feeling very happy today." sentence2 = "i am feeling extremely sad today." # 计算相似度 similarity = sentence_similarity(sentence1, sentence2) print(f"Semantic similarity between the sentences: {similarity}") ``` 关键代码解释 1. 文本预处理: - `preprocess`函数对句子进行分词、去停用词和词形还原。 - `word_tokenize`用于分词,`lemmatizer.lemmatize`用于词形还原。 2. 词义消歧: - `get_synsets`函数返回一个单词在WordNet中的所有同义词集。 3. 计算相似度: - `sentence_similarity`函数计算两个句子的相似度。它首先对句子进行预处理,然后获取每个单词的同义词集。 - 使用WordNet的`path_similarity`方法计算同义词集之间的相似度,选择最大值作为最终相似度。 3. 结果分析 运行上述代码后,输出的结果如下: ```plaintext Semantic similarity between the sentences: 0.0 ``` 这个结果表明,两个句子在语义上没有明显的相似性。这是因为“happy”和“sad”是相反的情感状态,它们在WordNet中没有直接的同义词关系,因此相似度为0。 通过这种方法,我们可以有效地比较两个句子的语义相似度,但需要注意的是,这种方法依赖于WordNet的覆盖范围和同义词集的质量。对于更复杂的语义分析,可能需要结合更多的NLP技术和深度学习模型。 ######[AI写代码神器 | 999点数解答 | 2024-11-11 23:23:14]
- Python借助WordNet计算“开心”与“悲伤”句子语义相似度全解析(字节豆包 | 554点数解答 | 2024-11-11 23:20:31)205
- Python 借助 WordNet 计算“开心”与“悲伤”句子语义相似度全解析 (讯飞星火 | 999点数解答 | 2024-11-11 23:23:14)240
- Python借助WordNet计算“开心”与“悲伤”句子语义相似度全解析(GPT | 1241点数解答 | 2024-11-11 23:24:01)202
- Python 运行报错:urllib3 网络连接创建失败,原因及排查建议(字节豆包 | 161点数解答 | 2024-10-31 00:39:36)458
- Python 实战:学生信息列表转字典、遍历、深拷贝及数据修改全流程(GPT | 422点数解答 | 2024-10-29 15:43:54)414
- Python实战:学生成绩列表转字典,深拷贝与数据修改操作全解析(字节豆包 | 254点数解答 | 2024-10-29 16:01:39)405
- Golang开发:解析JSON数据时数值默认类型及示例解析(百度文心 | 393点数解答 | 2023-11-09 18:13:06)274
- SQL Working Areas Sizing: Manual vs. Automatic Policy - A Comprehensive Analysis(阿里通义 | 530点数解答 | 2024-05-13 10:55:58)305
- C++ 代码实现自定义运算 x@y = x² + y² - xy 及 x@(x+y) 计算(DeepSeek | 215点数解答 | 2025-12-13 15:08:14)66
- C++ 实现根据输入正整数奇偶性计算偶数和或约数和(字节豆包 | 838点数解答 | 2026-02-28 20:23:59)24
- Java调用Python接口中文乱码?设置UTF - 8编码一招解决!(讯飞星火 | 263点数解答 | 2024-06-06 17:07:59)389
- 解决Java调用Python接口中文乱码问题:设置UTF - 8编码全攻略(讯飞星火 | 160点数解答 | 2024-06-06 17:18:39)414