08 | 数据算法：因材施教，为你的系统选好老师

Tyler

你好，我是 Tyler。
上节课我们学习了模型工程相关的知识，你掌握得如何？今天，我们来进一步学习更多的数据算法。
其实数据算法的本质是对人类智能的仿生，作为人类，我们进化出了神经反馈系统、大脑和各种感官。我们与生俱来的眼耳鼻舌身意这些高配传感器，还有大脑这个深度神经网络，让我们成为万物灵长，稍加学习就能适应外部世界。
不过作为 AI 系统造物主的你，就没那么轻松了。你需要先发挥自己的聪明才智，替 AI 系统去选择合适的输入数据，才能让你的 AI 系统足够智能。
你可能会问，为什么非得我们代劳，来完成选择数据的工作呢？我举个例子你就明白了。
假设，我们希望让一个智能体快速察觉到班主任的凝视，这个智能体很难自己判断哪些“数据”是重要的，它需要问遍身体的每一个传感器，才有可能找到传感信号和探测目标之间的关系。而我们只需要根据生活经验稍作思考，就知道最有价值的是听觉和视觉信号，只要将摄像头和麦克风信号供给模型，它就能判断是否有“危险”了。
在 AI 系统里也是同样的道理，我们利用人类的经验把数据分成了主体数据、客体数据和环境数据这三类数据。比如在无人驾驶和车联网系统中，这三类数据对应的是车辆数据、交通流数据和环境数据。
再比如我们熟悉的 AIRC 系统，它利用数据包括用户特征、物品特征和场景特征。这些数据都遵循了主体、客体和环境这种划分方式。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了数据算法中的用户特征和物品特征处理方法，以及知识图谱的构建步骤。对于用户特征，AI系统需要充分利用用户画像数据，而数据管理平台（DMP）则对用户特征进行管理。人群扩展算法（Look-alike）可以挖掘潜在用户，提高风控能力和冷启动推荐效果。物品特征的处理方法则围绕知识图谱展开，构建物品的“朋友圈”来建立丰富的连接。知识图谱的构建包括知识抽取、知识融合和知识加工三个主要步骤。场景特征和实时特征在AI系统中的重要性也得到了强调。文章强调了对生活的观察和体验对数据智能工作的重要性，以及图神经网络、知识图谱和跨模态预训练模型技术的重要性。整体而言，本文总结了数据算法和知识图谱在AI系统中的关键作用，以及对于用户、内容和场景特征的重视。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型系统实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

GAC·DU
主体在对话中，主体通常指的是模型或参与对话的用户。客体指的是主体在对话中讨论的主题、事物或概念。在对话中，主体通常会涉及一个或多个客体，以其问题、回答或讨论内容来定义对话的方向和主题。环境数据是在对话过程中提供背景信息和上下文的数据。这些数据可能包括对话历史、之前的提问、回答，以及在对话中引入的其他文本。环境数据有助于理解对话的脉络，确保主体对当前对话情境有准确的理解。用户特征提供明确的指导，例如要求ChatGPT以特定的语气、风格或格式回答问题。这有助于模型生成更符合用户预期的内容。在对话中提供反馈，指出哪些回答是有用的，哪些回答需要改进。这有助于模型逐步调整生成内容。参考之前的对话历史，以便模型可以更好地理解用户的偏好、兴趣和问题，有助于生成更连贯和相关的内容。内容特征提供准确详细的信息，以便模型可以从中获取更具信息价值的内容。在问题中提供清晰的背景和上下文，以确保模型理解问题的背景，从而生成更恰当的回答。避免使用模棱两可的语句，特别是当涉及到多个可能的含义时，这可以减少模型误解意图的可能性。场景特征如果对话涉及特定领域的知识，提供相关的专业术语和背景信息，以确保模型在生成内容时具有正确的专业性。考虑到文化差异和语境，以便模型可以生成适合特定文化和背景的内容，避免可能的误解或冒犯。如果需要特定风格的回答，可以明确指示模型使用哪种语气、语言风格或情感色彩。场景特征更关注于对话的背景和环境，而用户特征更关注于对话中的用户需求和个性化，场景特征通常包括对话主题、领域和文化等，而用户特征包括用户指令、历史记录和风格偏好等。而“用户最近 30 分钟内，观看的运动类视频数量”属于和时间相关的用户行为特征。三种算法包括拿知识的实体识别算法，合知识的实体关系抽取算法，学知识的图数据学习算法。
作者回复: 你好，GAC·DU！回答的很好，你已经无意间答出了很多现在工业级AIGC系统所使用的关键特征了，希望在后面的课程中，再接再厉！
2023-08-28归属地：北京

11
周晓英
在 ChatGPT 的设计中，可以将 "主体" 理解为模型自身，"客体" 理解为与模型交互的用户，而 "环境" 则是交互的上下文环境，包括但不限于用户的输入、对话的历史记录以及外部信息等。 1. 基于用户、内容和场景的特征优化内容生成: 用户特征: 用户的行为、偏好、历史交互记录等。例如，用户的年龄、性别、喜好、之前的查询等。内容特征: 输入的内容、模型的回复、外部知识源等。例如，文本的复杂度、情感、主题等。场景特征: 对话的场景、时间、地点等。例如，对话的目的（如咨询、购物、娱乐等）、时间、地点等。优化步骤：特征工程：首先需要进行特征工程，提取和构建与用户、内容和场景相关的特征。模型定制：根据这些特征定制模型结构，例如，通过添加特征嵌入层或特征条件层来整合这些特征。训练和调优：使用带有这些特征的数据进行模型训练和调优，以改善内容生成的质量。 2. 特征分类: “用户最近30分钟内，观看的运动类视频数量”这个特征应该是一个用户特征，因为它反映了用户的实时行为。 3. 知识图谱构建三个步骤中的算法选择: 构建知识图谱通常包括三个基本步骤：实体识别、关系抽取和知识融合。实体识别: 可以选择条件随机场 (CRF) 算法，它是一种有效的序列标注算法，常用于实体识别任务。关系抽取: 卷积神经网络 (CNN) 或循环神经网络 (RNN) 可以被用于关系抽取，通过学习文本中的模式来识别实体间的关系。知识融合: 同源性检测算法 (如 SimRank) 可以用于知识融合，以识别和合并来自不同源的重复或相似的知识。
2023-10-02归属地：美国

2
顾琪瑶
1. 数据: 1.1 主体: GPT本身, 或者说是模型自身 1.2 客体: 不同的用户 1.3 环境: 不同用户的上下问数据 2. 质量: 2.1 用户: 2.1.1 时区或位置(IP): 由于不同地区的发展程度不一致, 相同的问题更合适的答案应该也是不同的 2.2.2 特征: 根据提问内容检索提出相似问题的人群, 如更倾向于科普类, 或专业类 2.2 内容: 可以考虑在响应用户回答后, 再选择几个相似度高的答案, 作为备选, 拓展用户的提问思路引导用户 2.3 场景: 如果是非通用型大语言模型, 可以在应用层就提示模型, 当前是属于什么场景下的提问, 如购物, 检测等, 提高模型的准确度 3. 区分: 更偏向于用户特征 3.1 场景特征: 可适用于观看视频的场景太多, 几乎任何和平地区且有网络的地区都可以
2023-08-28归属地：上海

1

收起评论