成为 AI 产品经理
刘海丰
京东高级架构师
23717 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
成为 AI 产品经理
15
15
1.0x
00:00/00:00
登录|注册

期中周测试题 ,你做对了吗?

计算新评论属于正常评论的概率
计算新评论属于垃圾评论的概率
确定特征:词语在样本中的词频
正逆向最大匹配的分词算法
基于字符串匹配的分词方法
计算概率
构建训练集和测试集
对评论进行分词
使用词向量表示文本中的数据
将非结构化数据转化成结构化的
思考和设计产品
需求:通过计算将海量评论中的垃圾评论过滤出来
希望巩固所学的内容
主观题答案
标题:期中周测试题 ,你做对了吗?
参考文章

该思维导图由 AI 生成,仅供参考

你好,我是海丰。今天,我来公布一下主观题的答案。
我们先来回顾一下题目:
假如,你现在是一家电商平台的产品经理,负责点评系统的产品设计,现在有一个需求是要通过计算将海量评论中的垃圾评论(如,打广告的情况)过滤出来,你会怎么思考和设计产品?
我们知道,用户评论数据都是非结构信息,所以我们首先要做的就是将非结构化数据转化成结构化的。在文本分析中,我们可以使用“词向量”来表示文本中的数据。
举个例子,如果用户评论中出现某些特定词,比如“尊敬的”“您好”“促销”等等,它们很有可能属于垃圾评论。那我们就可以用这些词来构成“词向量”,具体怎么做呢?下面,我分三步来讲。

第一步:对评论进行分词。

分词是文本分析的首要工作,“基于字符串匹配”是最简单的分词方法。举个例子,现在有一句短语叫做“北京亚朵酒店”,以及我们事先积累的词库。
首先,我们可以提出短语的第一个字符串“北”,然后将短语中从“北”字开头的后续的内容与词库中收录的词语进行匹配。当匹配到了词库中的词语“北京”后,就可以停止匹配了,“京”字也就作为终止字符。这样,我们就从“北京亚朵酒店”中提出来了第一个词语“北京”。
接着,我们就可以把“北京”这个词从原始短语中删除,从“亚”字重新开始匹配。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

电商平台产品经理需要设计一个点评系统,用于过滤海量评论中的垃圾评论。文章提出了解决方案,首先是将非结构化数据转化成结构化的,采用词向量表示文本数据。然后介绍了三个步骤:评论分词、构建训练集和测试集、计算概率。通过分词、词频统计和概率计算,可以对评论进行垃圾评论和正常评论的分类。这个解决方案结合了文本分析和机器学习的方法,能够有效过滤垃圾评论,为产品经理提供了一种可行的设计思路。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AI 产品经理》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 无觅
    所以前面交的算法和这次期中出的考题有什么关系?一个算法没有用到,前面算法是白学了吗?
    2021-10-20
    4
  • Geek_d54869
    期中测试题很好,也猜到要分词,具体怎么做没思路;不过这里跟前面学习的算法一点关系都没有,不应该作为期中测试,而是思考延伸。
    2023-05-25归属地:北京
  • 风逍扬
    垃圾邮件识别是不是也是一样的原理
    2022-11-29归属地:北京
  • Rosa rugosa
    老师这个解决办法用到了词向量,属于机器学习中的算法吗,是前面算法篇中哪种算法呢?
    2021-03-15
    1
  • 吴洋
    麻烦问下词“顾客”出现在评论中,可以判断评论为垃圾评论的概率为0.2,为什么像“您好”、“活动”这些的概率是0.13?我想知道我是怎么算错的。。。
    2021-01-25
    5
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部