讲师介绍:
刘艳鹏,搜狐社交产品中心-智能算法部—资深算法研究员,负责探索算法在社交产品及各种创新场景中的应用与落地。多年从事算法相关工作,主要研究方向为自然语言处理/生成、知识图谱、对话系统、内容理解以及推荐系统等,对于算法的问题定义与建模到部署实施的整个流程,都有深入研究和实践。
问题背景:
话题检测(主题检测)是话题发现和跟踪任务的一项子任务,目的是从一系列连续的数据流中自动检测出不同的话题,而其本质是无监督的聚类问题:通过增量的文档聚类的方法,信息流被聚集到有限的话题类簇中,类内高度相似,不同的类间相似度较低,以此进行海量数据的融合。对于这个问题,不管是学术上还是工程上,都已经有很多成熟的解决方案。但是,现今多媒体内容的呈现形式对这个任务又提出了新的挑战。因此,在多媒体内容业务场景下,如何选择高效的聚类算法,如何充分利用多模态信息进行话题的发现都是需要解决和思考的问题。
内容看点:
从实际场景出发,如何进行算法的适用选择;
话题检测只支持文本?多模态信息融合助力;
使用组合相似度策略来探索利用不同维度特征。