05 | 从文本到用户画像有多远

刑无刀



该思维导图由 AI 生成，仅供参考

前面，我和你聊过了不要把用户画像当成银弹，也不要觉得一无是处。对于一个早期的推荐系统来说，基于内容推荐离不开为用户构建一个初级的画像，这种初级的画像一般叫做用户画像（User Profile），一些大厂内部还习惯叫做 UP，今天我就来讲一讲从大量文本数据中挖掘用户画像常常用到的一些算法。
从文本开始用户这一端比如说有：
注册资料中的姓名、个人签名；
发表的评论、动态、日记等；
聊天记录（不要慌，我举个例子而已，你在微信上说的话还是安全的）。
物品这一端也有大量文本信息，可以用于构建物品画像（ Item Profile ），并最终帮助丰富 用户画像（User Profile），这些数据举例来说有：
物品的标题、描述；
物品本身的内容（一般指新闻资讯类）；
物品的其他基本属性的文本。
文本数据是互联网产品中最常见的信息表达形式，数量多、处理快、存储小，因为文本数据的特殊地位，所以今天我专门介绍一些建立用户画像过程中用到的文本挖掘算法。
构建用户画像要用物品和用户的文本信息构建出一个基础版本的用户画像，大致需要做这些事：
1. 把所有非结构化的文本结构化，去粗取精，保留关键信息；
﻿
﻿
2. 根据用户行为数据把物品的结构化结果传递给用户，与用户自己的结构化信息合并。
第一步最关键也最基础，其准确性、粒度、覆盖面都决定了用户画像的质量。仿佛如果真的要绘制一个用户的模样，要提前给他拍照，这个拍照技术决定了后面的描绘情况，无论是采用素描、油画、工笔还是写意。这一步要用到很多文本挖掘算法，稍后会详细介绍。
第二步会把物品的文本分析结果，按照用户历史行为把物品画像（ Item Profile ）传递给用户。你也许会问：传递是什么意思？没关系，这个稍后我会介绍。
一、结构化文本我们拿到的文本，常常是自然语言描述的，用行话说，就是“非结构化”的，但是计算机在处理时，只能使用结构化的数据索引，检索，然后向量化后再计算；所以分析文本，就是为了将非结构化的数据结构化，好比是将模拟信号数字化一样，只有这样才能送入计算机，继续计算。这个很好理解，不多解释。
从物品端的文本信息，我们可以利用成熟的 NLP 算法分析得到的信息有下面几种。
关键词提取：最基础的标签来源，也为其他文本分析提供基础数据，常用 TF-IDF 和 TextRank。
实体识别：人物、位置和地点、著作、影视剧、历史事件和热点事件等，常用基于词典的方法结合 CRF 模型。
内容分类：将文本按照分类体系分类，用分类来表达较粗粒度的结构化信息。
文本 ：在无人制定分类体系的前提下，无监督地将文本划分成多个类簇也很常见，别看不是标签，类簇编号也是用户画像的常见构成。
主题模型：从大量已有文本中学习主题向量，然后再预测新的文本在各个主题上的概率分布情况，也很实用，其实这也是一种聚类思想，主题向量也不是标签形式，也是用户画像的常用构成。
嵌入：“嵌入”也叫作 Embedding，从词到篇章，无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息，并且用有限的维度表达出来。
下面我来介绍几种常用的文本结构化算法。
1 TF-IDF
TF 全称就是 Term Frequency，是词频的意思，IDF 就是 Inverse Document Frequency 是逆文档频率的意思。TF-IDF 提取关键词的思想来自信息检索领域，其实思想很朴素，包括了两点：在一篇文字中反复出现的词会更重要，在所有文本中都出现的词更不重要。非常符合我们的直觉，这两点就分别量化成 TF 和 IDF 两个指标：
TF，就是词频，在要提取关键词的文本中出现的次数；
IDF，是提前统计好的，在已有的所有文本中，统计每一个词出现在了多少文本中，记为 n，也就是文档频率，一共有多少文本，记为 N。
IDF 就是这样计算：
计算过程为：词出现的文档数加 1，再除总文档数，最后结果再取对数。
IDF 的计算公式有这么几个特点：
所有词的 N 都是一样的，因此出现文本数越少 (n) 的词，它的 IDF 值越大；
如果一个词的文档频率为 0，为防止计算出无穷大的 IDF，所以分母中有一个 1；
对于新词，本身应该 n 是 0，但也可以默认赋值为所有词的平均文档频率。
计算出 TF 和 IDF 后，将两个值相乘，就得到每一个词的权重。根据该权重筛选关键词的方式有：
给定一个 K，取 Top K 个词，这样做简单直接，但也有一点，如果总共得到的词个数少于 K，那么所有词都是关键词了，显然这样做不合理；
计算所有词权重的平均值，取在权重在平均值之上的词作为关键词；
另外，在某些场景下，还会加入以下其他的过滤措施，如：只提取动词和名词作为关键词。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了文本分析在构建用户画像中的关键作用和应用方法。通过分析用户和物品的文本数据，采用文本分析算法如TF-IDF、TextRank、内容分类、实体识别、聚类和词嵌入等，将非结构化的文本数据转化为结构化信息，丰富用户画像，更好地理解用户的兴趣和行为。特别地，文章详细介绍了Word2Vec在语义聚类方面的应用，以及卡方检验和信息增益等特征选择方法。这些算法和技术为构建更准确、全面的用户画像提供了重要的指导和支持。总的来说，本文为读者提供了深入了解用户画像构建过程中文本分析的关键概念和方法，为他们提供了宝贵的技术指导。文章内容丰富，涵盖了文本分析在用户画像构建中的关键作用和应用方法，对于从事推荐系统和数据挖掘工作的专业人士具有重要的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《推荐系统三十六式》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(50)

最新
精选

张哲
这一期信息量好大……
作者回复: 慢慢享用，嚼碎了再吞。
2018-03-14

30
林彦
谢谢刑无刀老师的分享。建议各种步骤和场景的工业化工具及其性能和便利，对我们读者提供了不小的价值。 1. 词嵌入里面提到学习到的包含更多语义信息的(新)词向量可以“用于聚类，会得到比使用词向量聚类更好的语义聚类效果”。这里的聚类是指文中之前提到的LDA等聚类模型来找出文章的主题吗？ 2. “主题模型：从大量已有文本中学习主题向量，然后再预测新的文本在各个主题上的概率分布情况，也很实用，其实这也是一种聚类思想，主题向量也不是标签形式，也是用户画像的常用构成。”请问这里已有文中的主题向量中的主题词如果是通过LDA提取是不是需要有个停用词表排除那些所有文档中词频都很高的词？它不像TF-IDF会自动排除所有文档中词频高的词。这种场景的聚类就是判别新的文本和哪些主题的文本比较相似（”距离“接近或主题”概率“较大），然后判别新的文本的主题？ 3. ”向量中各个维度上的值大小代表了词包含各个语义的多少“ 有这句说明挺好的。我第一次阅读不太理解，后来查了一些文章，有一个解释我觉得比较直观，Word2Vec生成的向量值可以看成是N维语义空间(N个语义词)中的坐标值(每个坐标轴对应一个语义)。当2个词在同一个N维语义空间中的距离接近时，说明2个词的含义接近。
作者回复: 你一定是个学霸，向你致敬。 1. 这里的聚类是指的传统数据挖掘中的聚类。基于距离或者密度等。如kmeans。 2. 停用词要去掉。lda在预测阶段也要迭代的，而不是计算相似度。 3. 你若理解了，就是晴天。
2018-03-14

10
Drxan
无刀老师，能否建立个微信群啊，大家可以对您每期的课程内容一起学习讨论
作者回复: 知识星球(原来叫小密圈)搜ResysChina。
2018-03-15

9
jt120
针对embedding，我不太理解，之前理解就是一种映射关系，但文里为什么说结果是稠密的，这是怎么保证的
作者回复: 用Word2vec跑出一个结果你就明白了，设定k维的话，你会得到一个k维向量，每个维度上都有值的。
2018-03-14
2
6
行行行
老师，关于word2vec，有几个疑问 1 工业上如果通过word2vec得到文档的向量呢，是用累加一个文档中各个词的词向量得到的稠密向量表示吗 2 用于聚类，是用上面得到的文档向量来做吗 3 到底是如何通过计算词和词之间的相似度，扩充标签的呢
作者回复: 1.是 2.是 3.用你文本中出现的词，去查询通过word2vec计算得到的相似词，从而实现了“扩展”，原来只有两个词，现在增加了几个相似词，变成了4个词。
2018-03-23
2
3
jt120
上面提到的都是主流的推荐系统方法，例如电影，图书，新闻这些经典场景。但对于特殊商品，例如房子，明显和上面不同，低频，高价，并且房子的特征基本都是分类特征，针对这种场景，如何选择特征，如何推荐了？
作者回复: 这种场景下，用户也更有耐心一些，可以多向用户询问他的诉求，更像一个辅助决策系统，而不是一个纯粹的推荐系统。
2018-03-14

3
wjj
老师，TF—IDF中的Top K 排序，实际工作中超参数K值一般取多少？
作者回复: 看情况。
2019-05-31

1
Kendal
邢老师你好，我是初学者，第二部分把物品的结构化信息传递给用户这里，您把他看成是一个特征选取的问题。这里没太看懂，还望能够详细解释下。假设用户A和我们给他展现的100个物品有了2类操作（消费10，没消费90）。我的理解是这边每个被消费的物品（10个）都有自己的特征向量（假设n维），我们的任务是找到这n维里面到底哪m维是用户真正关心的。这个理解对吗？然后如何选取到这m维，并把它们融合到用户自己原来的向量中又是如何具体实现的？谢谢指点！
作者回复: 文中有详细介绍。后续图书中有例子。
2019-02-11

1
预见
我来补充林彦同学的第三点，”向量中各个维度上的值大小代表了词包含各个语义的多少“ 。第一遍看到这句话的时候我没有看懂，查阅资料后才明白。比如使用word embedding，一个单词“北京”，用5维向量“首都，中国，大城市，南方，没雾霾”来表示的话，他的向量形式就是[1, 1, 1, 0, 0]，各个维度的值的大小代表了词包含各个语义的多少。老师要是讲的再细致一点，给出示例就更好了
作者回复: 谢谢你的建议，采纳到图书中。
2018-12-01

1
尹士
Fasttext准确率跟cnn比，有差距，我的实验结果，不知邢老师参数如何设置的，可以工程中使用fasttext
作者回复: 我似乎觉得工程中fasttext用得多些，尤其中小企业。
2018-04-01

1

收起评论