• peter
    2023-05-16 来自北京
    关键词的获取,是否有现成的可用的工具?就是说拿来就能用、基本不用开发。比如我要搭建一个推荐系统,也用到了关键词获取,导入一个库然后调用其API就可以直接获取;或者运行一个工具软件,可以直接获取;或者某个平台提供该服务。等等。

    作者回复: 可以的,其实有很多基于深度学习和机器学习的关键词提取的库,你可以去百度下这些库的用法,jieba就是其中一个。

    
    
  • Geek_ccc0fd
    2023-05-16 来自广东
    我装的jieba==0.42.1可以直接对句子提取关键词,分词的部分已经封装在jieba代码里面了,修改了一下关键词提取代码: import jieba from jieba.analyse import extract_tags from jieba.analyse import textrank class KeywordModel(object): def __init__(self): jieba.load_userdict('../data/user_dict.csv') jieba.analyse.set_stop_words('../data/stopWord.txt') def get_keywords(self, sentence, type, topK=10, pos=('ns', 'n', 'vn', 'v')): """ 获取关键词 :param sentence: 文本 :param type: 使用哪种关键词算法,可选:tfidf,textrank :param topK: 获取topK关键词 :param pos: 分词保留的词性类型,eg:('ns', 'n', 'vn', 'v') :return: """ if type == 'tfidf': tfidf_keywords = extract_tags(sentence, topK=topK, allowPOS=pos) return tfidf_keywords elif type == 'textrank': textrank_keywords = textrank(sentence, topK=topK, allowPOS=pos) return textrank_keywords def keyword_interact(self, tfidf_keyword, textrank_keyword): """ 关键词交集 :param tfidf_keyword: :param textrank_keyword: :return: """ return list(set(tfidf_keyword).intersection(set(textrank_keyword))) def keyword_combine(self, tfidf_keyword, textrank_keyword): """ 关键词并集 :param tfidf_keyword: :param textrank_keyword: :param k: :return: """ combine = list(tfidf_keyword) for word in textrank_keyword: combine.append(word) return list(set(combine)) def keyword_combine_topk(self, tfidf_keyword, textrank_keyword, k): """ 关键词topk并集 :param tfidf_keyword: :param textrank_keyword: :param k: :return: """ combine = list(tfidf_keyword[:k]) for word in textrank_keyword[:k]: combine.append(word) return list(set(combine))
    展开

    作者回复: 不错,可以推广给同学们

    
    
  • 翡翠虎
    2023-05-15 来自广西
    有常用的停用词表吗

    作者回复: 一般常用的停用词表可以在网上找到,或者找敏感词表,有些github上面也会公布,可以搜关键词stopwords。

    共 2 条评论
    
  • Weitzenböck
    2023-09-05 来自江苏
    老师,能提供一下stopword.txt和user_dict.txt,而且我在运行代码的时候出现了定义Segment
    
    
  • Weitzenböck
    2023-09-05 来自江苏
    这个课程真的是一点代码和资料的github都没有吗?
    
    