苹果是如何进行实时手写汉字识别的
极客时间编辑部
讲述:杜力大小:1.20M时长:02:37
近日,苹果发布文章详细介绍了他们用于进行手写中文汉字识别的实时机器学习引擎,该引擎支持近 3 万个汉字。
据苹果介绍,随着字符池大小的增加,该模型精度的降低程度仅呈渐进分布。这使得研究人员能够识别像 GB18030-2005 这种大字符集中的汉字,其精确度仅比识别 GB2312-80 这种小字符集中的汉字的精确度略低一点。
中国国家标准字符集(GB18030-2005)中包含 27533 个条目,这么多的汉字使得多年来键盘的实现颇具挑战性,因此一个手写识别器的价值在使用中文的人群中不言而喻。
多年以来,随着时间和地域的变化,许多中文也已经演变出了不同的版本。潜在字符值的庞大语料库、书写方式的不同、每个人独特的手写风格等属性和特质,使得中文手写识别问题成为了一个极具挑战性的机器学习问题。
卷积神经网络,简称 CNN,通常用于解决图像识别和标记相关的机器学习问题。苹果文章中还提到了他们早期的研究方法,经过一段时间的模型方法演变后,发现笔顺在将剩余字符切分子集的概率中产生的影响很大,而早期模型希望在匹配的过程中能够产生更多的可能性。
但是基于笔顺的方法,应用到大字符集时暴露出了许多问题。对于每一个字就有着 n 个笔顺的汉字来说,随着字符集的增大,计算的复杂性和计算开销会大大提升。这使得研究员们需要实现一种与笔顺无关的方法,因此激发了对整体形状信息进行统计的方法的兴趣,即“形状驱动”,它是不依赖于笔顺的。
苹果所使用的方法类似于一种基于 MNIST 的在拉丁文手写识别上很好用的方法,在这种方法中 CNN 是行业标准。但是,对于 3 万多汉字的实时识别来说,使用 CNN 就显得很具有挑战性了。字符库之间的冲突和模糊性为该问题增加了额外的复杂性。
在具体实现中,每一个手写输入都会被转换成为一个 48x48 像素的图像,该图像用于表示原始字符。这是第一个被输入到剩余前馈神经网络的卷积特性。预处理步骤,或卷积步骤被用来最小化 CNN 处理图像所需的整体尺寸。有限数量的像素和这些像素的可能值为模型的复杂度提供了一个上限,并且能够产生一个可靠的输入字符的粗糙表示,经过训练的网络能够在 Apple Watch 等外部设备上运行。
而训练数据集来自从不同地域使用中文的人群中收集的上千万手写文字。研究人员表示,成功识别的准确度足以使其在商业软件中具有良好的表现。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论