Java 实现中文高频词统计

碧海云夭

2664人浏览 · 2023-01-07 11:23:14

碧海云夭 · 2023-01-07 11:23:14 发布

为了统计一个文本中的高频词，你可以使用以下步骤：

分割文本：将文本分割成单独的词。这可以通过使用空格或标点符号来实现。
清洗文本：对于每个词，你可能希望去除标点符号和转换所有字母为小写。这有助于统计相似的词（例如“the”和“The”）。
创建词汇表：创建一个字典，其中键是单词，值是单词出现的次数。
统计词频：遍历分割后的词列表，并在词汇表中对每个单词进行计数。
排序词汇表：根据词频对词汇表进行排序。
输出结果：输出频率最高的几个单词。

这是一个非常基本的实现方法，你可以根据需要添加其他功能。例如，你可能希望忽略常用词（例如“a”，“and”，“the”等），或者使用正则表达式来处理更复杂的文本。

对于中文文本的高频词统计，需要使用中文分词来将文本分割为独立的词。

你可以使用现成的中文分词工具，例如：

jieba：一个开源的中文分词工具，可以使用 Python 调用。
HanLP：一个功能强大的中文分词和文本处理工具，支持 Java 和 .NET。
IKAnalyzer：一个基于 Lucene 的中文分词工具，支持 Java。

下面是使用 Java 实现中文高频词统计的示例代码：

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;


public class HighFrequencyWords {
    public static void main(String[] args) {
        // 初始化文本
        String text = "这是一段中文文本，用于演示中文分词和高频词统计。";
        // 使用 HanLP 分词
        List<Term> terms = HanLP.segment(text);
        // 创建词汇表
        Map<String, Integer> wordCount = new HashMap<>();
        // 统计词频
        for (Term term : terms) {
            String word = term.word;
            if (wordCount.containsKey(word)) {
                wordCount.put(word, wordCount.get(word) + 1);
            } else {
                wordCount.put(word, 1);
            }
        }
        // 将词汇表转换为列表，便于排序
        List<Map.Entry<String, Integer>> wordList = new ArrayList<>(wordCount.entrySet());
        // 按词频排序
        wordList.sort((o1, o2) -> o2.getValue().compareTo(o1.getValue()));
        // 输出结果
        for (Map.Entry<String, Integer> entry : wordList) {
            System.out.println(entry.getKey() + ": " + entry.getValue());
        }
    }
}

输出结果如下

中文: 2
一: 1
。: 1
用于: 1
文本: 1
演示: 1
，: 1
和: 1
高频词: 1
分词: 1
统计: 1
是: 1
段: 1
这: 1

阅读全文

AI总结

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

2025 GitCode 开发者冬日嘉年华：AI 与开源的深度交融之旅

GitCode 开源社区

GitCode 光引计划投稿 | GoIoT：开源分布式物联网开发平台

GitCode 开源社区

JeeSite 快速开发平台：全能企业级快速开发解决方案｜GitCode 光引计划征文展示

GitCode 开源社区

所有评论(0)

碧海云夭

@u013208623

已为社区贡献1条内容

Java 实现中文高频词统计

碧海云夭

所有评论(0)

碧海云夭

登录社区云

GitCode 开源社区