有趣数据集的探索性分析

UMAP 是用于数据一般性探索分析的有用工具——它提供了一个独特的视角来查看数据,可以突出显示隐藏在数据中、通过其他技术分析不那么明显的结构和属性。下面是一些使用 UMAP 对有趣数据集进行引人入胜的探索的用例精选——涵盖从纯数学和神经网络输出,到哲学文章和科学文本等各个领域。

数字的质因数分解

如果我们将 UMAP 应用于整数会怎样?首先,我们需要一种在高维空间中表达整数的方法。这可以通过查看每个数字的质因数分解来实现。接下来,你需要获取足够多的数字来生成一个有趣的可视化。John Williamson 着手做了这件事,结果令人着迷。虽然它们可能不会真正告诉我们关于数论的任何新知识,但它们确实突出了质因数分解中有趣的结构,并展示了 UMAP 如何帮助对我们可能认为非常熟悉的数据集进行有趣的探索。Dr. Williamson 对 UMAP 在整数质因数分解中的应用进行了丰富而详细的探索,因此值得访问下方链接的文章。

_images/umap_primes.png

UMAP 在质因数分解中的应用

感谢 John Williamson。

近代哲学结构

哲学是一个极其多样化的学科,涵盖从社会哲学和道德哲学到逻辑学和数学哲学;从古希腊哲学的分析到现代商业伦理。如果我们能对上个世纪发表的所有哲学论文进行概览,它会是什么样子?Maximilian Noichl 提供了这样一种探索,他查看了大量哲学论文样本,并根据它们的引文进行了比较。结果令人着迷,并且可以在 Maximilian 构建的查看器中进行交互式探索。

_images/structure_recent_phil.png

近代哲学结构

感谢 Maximilian Noichl。

神经网络中的语言、上下文和几何

自然语言处理的最新进展之一是基于 BERT 神经网络的语言分析技术。BERT 的众多功能之一是上下文敏感的词嵌入——提供对词语使用上下文敏感的词语数值向量表示。神经网络内部是如何做到这一点的稍微有些神秘(因为网络非常复杂,参数众多)。谷歌的一组研究人员着手探索 BERT 生成的词嵌入空间,使用的工具之一就是 UMAP。下方链接的博文对 BERT 的词嵌入是什么样子,以及 BERT 的不同层如何代表语言的不同方面,进行了详细且富有启发性的分析。

_images/bert_embedding.png

神经网络中的语言、上下文和几何

感谢 Andy Coenen, Emily Reif, Ann Yuan, Been Kim, Adam Pearce, Fernanda Viégas 和 Martin Wattenberg。

激活图谱 (Activation Atlas)

理解现代卷积神经网络的图像处理能力(及其不足!)是一项挑战。当然,这些模型在图像分类等方面能够完成惊人的壮举。它们也可能以意想不到的方式变得脆弱,精心设计的图像能够导致原本令人费解的错误分类。为了更好地理解这一点,来自谷歌和 OpenAI 的研究人员构建了激活图谱 (activation atlas)——分析神经网络激活的空间。在这里,UMAP 提供了一种将激活空间压缩到 2 维进行可视化的方法。结果是发表在 Distill 期刊上的一篇令人印象深刻的交互式论文,提供了丰富的可视化内容和对卷积神经网络工作原理的新见解。

_images/activation_atlas.png

激活图谱 (Activation Atlas)

感谢 Shan Carter, Zan Armstrong, Ludwig Schubert, Ian Johnson 和 Chris Olah。

开放教学大纲星系 (Open Syllabus Galaxy)

假设你想探索 Open Syllabus 中常用指定文本的空间?这将为你提供超过 15 万篇文本供考虑。由于这些文本是公开的,你可以实际分析其中涉及的文本内容。借助一些 NLP 和神经网络的魔力,David McClure 构建了这些文本的网络,然后使用 node2vec 和 UMAP 生成了它们的地图。结果是一个教科书星系,展示了学科之间的相互关系、相似和相关的文本,以及一个总体上有趣的科学探索景观。与这里的其他一些项目一样,David 创建了一个很棒的交互式查看器,可以对结果进行丰富的探索。

_images/syllabus_galaxy.png

开放教学大纲星系 (Open Syllabus Galaxy)

感谢 David McClure。