JiebaSegmenter 添加自定义分词内容

在 Java 中使用 `JiebaSegmenter` 时，可以通过加载自定义词典的方式添加自定义分词内容。以下是具体的代码示例： ```java import com.huaban.analysis.jieba.JiebaSegmenter; import com.huaban.analysis.jieba.SegToken; import java.util.List; public class JiebaCustomDictionaryExample { public static void main(String[] args) { // 创建 JiebaSegmenter 实例 JiebaSegmenter segmenter = new JiebaSegmenter(); // 加载自定义词典 // 这里假设自定义词典文件名为 custom_dict.txt，文件路径为当前项目根目录下 segmenter.loadUserDict("custom_dict.txt"); // 待分词的文本 String text = "这是一个包含自定义分词的测试文本"; // 进行分词 List<SegToken> tokens = segmenter.process(text, JiebaSegmenter.SegMode.INDEX); // 输出分词结果 for (SegToken token : tokens) { System.out.println(token.word); } } } ``` 代码解释 1. 创建 `JiebaSegmenter` 实例：通过 `new JiebaSegmenter()` 创建一个 `JiebaSegmenter` 对象。 2. 加载自定义词典：使用 `loadUserDict` 方法加载自定义词典文件，该文件的每一行代表一个自定义的词语，可以包含词频和词性信息（可选），格式为 `词语词频词性`。 3. 待分词的文本：定义一个需要进行分词的文本字符串。 4. 进行分词：使用 `process` 方法对文本进行分词，这里使用 `JiebaSegmenter.SegMode.INDEX` 模式，该模式会进行更细粒度的分词。 5. 输出分词结果：遍历分词结果并输出每个词语。自定义词典文件示例创建一个名为 `custom_dict.txt` 的文件，内容如下： ```plaintext 自定义分词 100 n 测试文本 100 n ``` 其中，`自定义分词` 和 `测试文本` 是自定义的词语，`100` 是词频，`n` 是词性（名词）。我在以往的开发过程中，碰到过以下几点需要格外小心处理的地方： 1. 自定义词典文件的编码格式要与代码文件的编码格式一致，否则可能会出现乱码问题。 2. 自定义词典文件的路径要正确，否则 `loadUserDict` 方法会找不到文件。 3. 词频和词性信息是可选的，如果不需要可以只写词语，但是每行只能有一个词语。 [2026-01-16 14:54:57 | AI写代码神器 | 598点数解答]

服务商

更多选项

快捷项

直通车

JiebaSegmenter 添加自定义分词内容