AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

116 | 掌握计算机视觉任务的基础模型和操作

今天,我们来聊一聊计算机视觉的一些最基础的操作和任务,包括像素表达、过滤器和边界探测。基于这些内容,我们一起讨论利用计算机来处理视觉问题的核心思路。很多时候,越是基础的内容就越重要,因为只有掌握了基础的思路,我们才能在今后复杂的任务中灵活应用。

像素表达

我们在上一次的分享中谈到了计算机视觉任务中一个非常重要的步骤,那就是把现实世界的信号通过感知仪器(Sensing Device)收集起来,然后在计算机系统中加以表达。那么,在所有的表达中,最基础的就是“像素表达”(Pixel)。我们这里就展开说一说这种表达的思路。
把图像信息利用像素来进行表达是一种非常直观简单的表达方式。
对于黑白图像来说,图像就被转换为了 0 或者 1 的二元矩阵。这个矩阵的每一个元素就是一个像素,0 代表黑,1 则代表白。
对于灰度图像来说,每一个像素,或者说是矩阵的每一个元素,代表灰度的“强度”(Intensity),从 0 到 255,0 代表黑,255 代表白。
对于彩色的图像来说,我们一般要先选择一种模型来表示不同的颜色。一种较为流行的表达方式是 RGB(红、绿、蓝)模型。在这样的模型中,任何一个彩色图像都能够转化成为 RGB 这三种颜色表达的叠加。具体来说,就是 RGB 分别代表三种不同的“通道”(Channel)。每一种通道都是原始图像在这个通道,也就是这个原始颜色下的表达。每一个通道都是一个矩阵像素表达。每一个像素代表着从 0 到 255 的值。换句话说,一个彩色图像在 RGB 模型下,是一个“张量”(Tensor),也就是三个矩阵叠加在一起的结果。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 小南
    计算边界检测区域的面积与实际面积对比,应该能回答老师的问题。不过我一般在处理边界问题的时候,都是一边调试处理,一边把边界线重新绘画到原图像中查看。
  • 皮特尔
    图像的边缘处强度函数变化较大,所以可以使用导数来做边缘检测。同时为了避免导数受噪音影响,可以先对图像做平滑处理。可以使用文中介绍的“移动平均”过滤器。
    1
  • Alice
    使边界平滑和边界探测两个概念有点搞不清,平滑之后是不是就不容易探测到边界了,还是两个概念用的是不同的方法相互是不干扰的?
    1
  • hongbosherlock
    老师讲的不错,但感觉课程互动太少了,效果不是很好。
  • 医用地狗精灵
    既然边界可以是横竖斜,那么可以用个过滤器来测试两边的骤然变化。
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部