AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

06|特征工程:数据点石成金,给你的系统赋予灵魂

你好,我是 Tyler。
上节课我们学习了 AI 系统的建模策略,你掌握得如何?希望你已经对 AI 系统有了初步的了解。从今天开始,你将学习与 AI 系统特征工程相关的内容。
特征工程其实是数据工程的一部分,我们把它单独拿出来讲是因为特征工程是数据工程的灵魂,而且它与模型工程也密切相关。从这节课开始,我们的课程也逐渐进入深水区,请你带好泳镜泳帽,我们要开始学游泳了。
其实特征工程和模型工程没有特别明显的边界,许多特征工程的动作,在足够复杂的模型中已经被自动化掉了,所以你要清楚,特征工程主要是为了帮助模型减轻压力。
我先用一句话概括一下特征工程的核心工作:特征处理的过程是对数据进行微观和宏观投影的过程,所以虽然叫特征处理,但特征本身其实没有变化,变的只是你观察的维度。接下来,我会循序渐进,带你从不同的维度观察特征。

从特征到特征

我先举个例子,让你直观理解一下从不同观察角度提取的特征,它们的差异有多大。
如果将光作为一个特征,你只能告诉模型这里有一条光线。但是如果加上一个三棱镜,你便可以告诉模型,这里有七种颜色的光。
是不是找到一些感觉了?其实这是在从不同角度刻画你的特征,其实是在寻找特征的特征
通常情况下,合理的数据变换能帮助现有模型更好地理解样本中的信息。一个常见的例子是年龄特征,因为往往各年龄段用户的数据量往往参差不齐,所以如果你给模型的特征是年龄,它学起来可能会很吃力。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

特征工程是AI系统中至关重要的一环,通过对数据进行微观和宏观投影,为模型提供更准确的信息。文章以生动的比喻和实例,深入浅出地介绍了特征工程的核心工作和方法。从不同角度刻画特征,如对年龄进行离散化处理,能够帮助模型更好地理解样本信息;而对数值型特征进行变换,如幂函数、指数函数,有助于处理非线性特征。此外,文章还介绍了特征交叉组合的策略以及从低维到高维的观察方法。特别强调了独热编码在特征工程中的重要性,能够将数据投射到高维空间,并保证各个特征之间的正交关系。总体而言,特征工程的核心在于为模型提供更准确、更丰富的特征信息,从而提高模型的准确性和泛化能力。通过本文的介绍,读者能够快速了解特征工程的重要性和基本方法,为进一步深入学习打下基础。文章还介绍了预训练模型的关键技术,以及如何获取各个实体在真实世界中的空间关系。通过对比学习的方法,刻画了高维空间中的特征距离,让模型“抄近道”理解特征在现实世界中的关系。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(13)

  • 最新
  • 精选
  • Paul Shan
    独热编码是如何处理分类特征的? 独热编码是把每个类型分配一个维度,这样不同的维度可以做到独立和正交 为什么需要进行正交的空间投影? 正交投影是确保了维度不缩小,并且不同的维度不相关,在这个基础上可以压缩维度和寻找关系,如果不正交的话,必然预设了不同维度之间的关系,这些预设值很可能和现实不符,会增加了模型走弯路的可能,如果丢失了维度,再让模型回到原来的维度就不可能了,高维映射到低维是可能的,反之就不可能了。 解释一下在高维空间刻画特征距离的意义和作用。 特征在高维空间中的距离反应了事物的相似程度,可以用来聚类和分类

    作者回复: 你好,Paul Shan!回答得非常好,在接下来的课程中,也期待你的反馈。

    2023-08-23归属地:澳大利亚
    2
    18
  • 张金磊
    老师,明明都是数字的向量,为什么在NLP这里就叫嵌入(虽然是中文的翻译,但英文原文也不是 vector),非常想知道这个答案,有什么历史“渊源”吗?或者去哪里查资料可以知道这个问题的答案,谢谢老师

    作者回复: 你好,张金磊!我们选择使用“嵌入”而非“向量”,因为它更准确地反映了我们表征学习任务的本质。在这类任务(如Word2Vec)中,训练标签不是表征信息,而是与输入实体(如:源单词)在真实世界中存在某些关系(如:共生关系)的输出实体(如:周围单词)。因此,我们只保留了模型的局部嵌入层特征表示(隐层参数),来间接获得表征映射(隐空间坐标)。所以,“嵌入”这个术语涵盖了向量来自模型隐层的含义,更准确地反映了它的来源。 当然,现在嵌入这个术语已经成为了我们的惯用词,即使在一些新的表征学习方法中表征信息不一定来自隐层,我们也会习惯称这个表征向量为嵌入。

    2024-02-19归属地:江苏
    3
    2
  • piboye
    老师, 现在词的embedding 还是用 cbow, skip-gram 来训练的吗?

    作者回复: 你好,piboye!很好的问题,后面现在的 embedding 使用了更新的技术,不过基本模式和 cbow,skip-gram 大同小异。后面的课程中介绍了新的方法,在此先不剧透。

    2023-10-04归属地:江西
    2
  • GAC·DU
    独热编码将每个分类值转换为一个二进制向量,其中只有一个元素为1,其余元素为0。优点是独立,缺点是可能会引入大量维度,导致维度灾难。 进行正交空间投影是为了数据降维,减少数据的维度,解决独热编码的缺点。 高维空间中刻画特征距离的意义在于帮助理解数据的结构、相似性和关联性,从而支持各种数据分析和机器学习任务。选择适当的距离度量方法,在特征工程中,通过分析特征距离,可以帮助选择最具信息量的特征,从而提高模型的性能和效率。

    作者回复: 你好,GAC·DU!独热编码的部分回答得很好,这里补充一下,独热编码还有一个好处,就是可以完成正交空间投影,这样可以确保在高维空间中各个特征是独立的。至于“数据降维”则是高维空间中刻画部分的特点,这部分是容易混淆的点,一定要做好辨析。在接下来的课程中,依然期待你的反馈。

    2023-08-23归属地:北京
    1
  • 默默且听风
    从空间到世界:这部分基本上能懂 从低维到高维:这部分结合one-hot encoding和代码能get到 从特征到特征:这个还有什么例子吗?脑子里基本没有想象空间啊,我现在的大脑就像那个三菱的光一样什么一没存住

    作者回复: 你好,听风!看来你真的很认真地二刷,非常好!实际上,本节课的第一个例子就是从特征到特征的案例。这里再给你一个更具体的场景,如果我们要通过接收到的地震波来判断是否发生了地震(注意不是预测),会受到各种噪音的干扰。在这种情况下,我们可以使用各种滤波器(比如本节课提到的各种函数)对原始波形数据进行滤波,然后通过各个滤波器生成的新波形来综合判断是否发生了地震。在这里,经过滤波后生成的新数据就是原始波形的特征,也就是特征的特征。

    2023-11-20归属地:北京
  • l_j_dota_1111
    三个类型可以相互正交,但是超过三个如何相互正交呢,还有就是为何要保证每个类型相互正交

    作者回复: 同学你好!很好的问题。为了保证它们之间彼此正交,需要让特征的维度和类型的数量保持一致,这是独热编码的定义,也是它的目的。

    2023-09-21归属地:天津
  • `¿`
    为啥听了之后,后面的问题还是不太能回答。是需要补充更多概念知识嘛

    作者回复: 同学你好,这三个问题的难度是递增的,具体是哪个问题回答不上呢。

    2023-09-02归属地:北京
  • peter
    第5讲中的PID是自动控制中的PID吗?

    作者回复: 你好,peter!第5讲提到PID算法,就是控制算法中的PID控制器。在即将上线的第7节课中会有具体算法和应用场景的讲解。

    2023-08-24归属地:北京
  • iLeGeND
    怎么感觉特征是离散的呢,怎么组成语言句子呢

    作者回复: 你好,iLeGeND!单词在编码投影后确实是离散的特征,至于将一组单词的表征组成句子的表征的方法有很多,在下一章大语言模型相关的知识中会详细讲解,在这里也提前预告一下。

    2023-08-23归属地:北京
  • 周晓英
    独热编码 (One-Hot Encoding): 想象一下你有一盒彩色的蜡笔,有红色、蓝色和绿色。我们想把这些颜色告诉计算机,但计算机只能理解数字。独热编码就是一种解决办法。我们为每种颜色分配一个特殊的数字序列。例如,红色可以是[1, 0, 0],蓝色是[0, 1, 0],绿色是[0, 0, 1]。这样,每种颜色都有一个独一无二的数字序列,计算机就能区分它们了。 正交空间投影 (Orthogonal Projection): 正交空间投影有点像是影子。想象一下,当阳光直射到你身上时,你的影子会掉到地上。在这个过程中,三维空间(你的身体)被简化为二维空间(影子)。正交投影是一种特殊的投影,它保留了一些重要的信息,使得原始的数据(你的身体)和投影后的数据(影子)之间的关系更清晰。 高维空间中的特征距离 (Feature Distance in High-Dimensional Space): 在高维空间中,我们可以通过测量点之间的距离来了解它们的相似度。比如说,如果我们在一个大商店里,每个商品都放在不同的位置,我们可以通过测量两个商品之间的距离来了解它们是否相似或相关。在高维空间里,每个维度代表了一个特征,比如颜色、大小或品牌。通过测量这些特征的距离,我们可以更好地理解和比较不同的商品。 高维空间的特征距离对于机器学习和数据分析非常重要,它帮助我们理解数据的结构,找到相似的点,甚至可以帮助我们预测新数据点可能属于哪个类别。
    2023-10-02归属地:美国
    3
    4
收起评论
显示
设置
留言
13
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部