情报学领域典型文本主题聚类算法比较研究
作者:崔文波,许鑫,张涛
关键字:情报学,主题聚类,主题聚类算法,LDA模型,BERTopic,比较分析
摘要:[目的/意义] 主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的主题聚类算法开展相关研究。[方法/过程] 首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题语义连贯、可解释和主题结构质量层面构建主题聚类算法评估框架;最后,基于评估框架选择经过验证的政策、媒体和学术论文三类数据集进行实证分析。[结果/结论]①K-means、NMF、BERTopic、BERT-HDBSCAN和LDA是适用于强调语义连贯性、可解释性较高的聚类研究,但LDA在媒体类数据集中表现较差,且融合语义嵌入后表现不佳;②LDA2Vec是适用于强调主题结构质量的聚类研究。③Sentence-BERT-K-means和BERT-K-means是适用于强调平衡主题可解释性和主题结构质量的聚类研究,特别是Sentence-BERT-K-means能提供较好的主题聚类效果。
原文链接:点击访问