- 安装jieba
pip install jieba
- 准备好txt文件和停用词表(网上可以下载到,txt格式即可)
- 编写代码
import jieba.analysepath = '你的txt文件路径'file_in = open(path, 'r')content = file_in.read()try: jieba.analyse.set_stop_words('你的停用词表路径') tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True) for v, n in tags: #权重是小数,为了凑整,乘了一万 print v + '\t' + str(int(n * 10000))finally: file_in.close()