作者回复: 你可以观察下高斯分布和t分布的形状比较,t分布的长尾特性让它对距离的保持性更好。高维空间上相距较远的点被压缩到低维空间之后可能会变得很近,但它们之间并没有什么相似性,这就是文中提到的拥挤问题。t分布能够把高维空间上距离较远的点映射成低维空间上同样距离较远的点,从而把同一类点聚合,把不同类的点分开。
作者回复: 有的,在总结部分会系统地推荐一些书目。
作者回复: 自编码器里的隐藏层神经元会少于输入的数目,从降维的角度来说,可以归到流形的范畴。但真正比较实在的应用是在知乎上看到的在生物行为学中的使用,一篇典型的论文是Mapping the stereotyped behavior of freely moving fruit flies。
作者回复: 这是非常好的研究方向。