交互式可视化
UMAP 已被用于许多有趣的交互式可视化项目,分析范围涵盖照片档案中的图像、词嵌入、动物点云,甚至声音。有时它也被用于有趣的交互式工具中,这些工具通过将其应用于直观的 3D 数据来帮助用户直观地理解算法的功能。以下是一些利用 UMAP 的出色项目。
UMAP Zoo
探索 UMAP 在对动物点云进行降维时的行为。它是交互式的,允许您在 2D 和 3D 表示之间切换,并提供多种不同的动物选择。尝试从 2D UMAP 表示中猜测动物是一种有趣的游戏。实际上,这个工具可以在很大程度上帮助建立对 UMAP 处理数据的直观理解。

感谢 Douglas Duhaime。
Tensorflow 嵌入投影仪
如果您只想探索数据集的 UMAP 嵌入,那么 Tensorflow 的嵌入投影仪是一个很棒的工具。它不仅具有良好的交互式 3D 视图,还提供检查和搜索数据标签和标记的功能。默认情况下,它加载 word2vec 向量,但您可以上传任何您希望的数据。然后您可以在嵌入选择的选项卡中选择 UMAP 选项(以及 PCA 和 t-SNE)。

感谢 Andy Coenen 和嵌入投影仪团队。
PixPlot
PixPlot 提供了大型照片集的概览。在耶鲁大学数字人文实验室的演示应用程序中,它展示了 Meserve-Kunhardt 历史照片集。该方法使用卷积神经网络将图像降至 2048 维度,然后使用 UMAP 将其呈现为 2 维地图,用户可以在其中进行交互式平移和缩放。此过程使得相似的照片最终出现在地图的相似区域,从而可以轻松浏览大型照片集。如果您希望在自己的照片集上进行训练,PixPlot 项目也已在 github 上提供。

感谢 Douglas Duhaime 和耶鲁大学数字人文实验室。
UMAP 探索器
这是一个很好的演示,展示了如何构建基于 Web 的应用程序来交互式探索 UMAP 嵌入。在这种情况下,它提供了对 MNIST 数字数据集上运行的 UMAP 的探索。嵌入中的每个点都呈现为数字图像,并根据数字类别着色。将鼠标悬停在图像上会使它们变大,并在左上方提供数字的视图。您还可以在嵌入中平移和缩放,以便更好地理解 UMAP 如何将不同风格的手写数字映射到 2 维空间。

感谢 Grant Custer。
音频探索器
Audio Explorer 使用 UMAP 将声音样本嵌入到 2 维空间中以便于探索。目标是获取大量的声音样本库,并将相似的声音放在地图的相似区域,从而允许用户快速将鼠标悬停并听取给定样本的各种变体,以便快速找到恰好要使用的声音样本。Audio Explorer 使用 MFCC 和/或 WaveNet 提供声音样本的初始有用向量表示,然后再应用 UMAP 生成 2D 嵌入。

感谢 Leon Fedden。
Orion 搜索
Orion 是一个开源的研究度量和知识发现工具,它使您能够监控科学进展,可视化探索科学景观并搜索相关出版物。Orion 使用 Sentence Transformers 将 bioRxiv 论文摘要编码为密集向量,并使用 UMAP 将其投影到交互式 3D 可视化中。您可以按主题和国家/地区过滤 UMAP 嵌入。您还可以选择 UMAP 嵌入的子集并检索这些论文及其元数据。

感谢 Kostas Stathoulopoulos, Zac Ioannidis 和 Lilia Villafuerte。
探索 Fashion MNIST
这是一个基于 Web 的交互式探索,对 Fashion MNIST 数据集上运行的 3D UMAP 嵌入进行了探索。用户可以自由导航 3D 空间,通过单击图像或输入图像 ID 跳转到特定图像。与 Grant Custer 的 UMAP 探索器类似,每个点都呈现为实际图像,并根据标签着色。它也类似于 Tensorflow 嵌入投影仪,但更具体地针对 Fashion MNIST 进行设计,因此更高效,能够显示所有 7 万张图像。

感谢 stwind。
ESM 元基因组图谱
ESM 元基因组图谱包含超过 6 亿个预测的蛋白质结构,以前所未有的方式揭示了元基因组世界。探索页面可视化了其中的 100 万个样本。(这是浏览器可以处理的大约数量。)我们数据集中的每个蛋白质都被表示为一个点,并且在放大或将鼠标悬停在其上时会显示实际的蛋白质结构。每个点的颜色对应于在 UniRef90(已知蛋白质序列的参考数据库)中找到的最接近匹配的相似度。地图上的位置是一个二维投影,它根据我们语言模型的内部表示,按相似度对序列进行分组。该地图在不同尺度上揭示了结构:同一簇中的局部邻居往往具有相似的结构,而附近的簇保留了某些模式,如二级结构元素。

感谢《Evolutionary-scale prediction of atomic level protein structure with a language model》的作者。
使用 Nomic Atlas 进行交互式 UMAP
Nomic Atlas 是一个用于交互式可视化和探索海量数据集的平台。它使用 UMAP 自动化创建嵌入和 2D 坐标投影。

Atlas 提供
使用 Atlas Analyst 在浏览器中分析您的 UMAP 数据
使用 Nomic API 对您的 UMAP 数据进行向量搜索
在 Nomic Atlas 数据地图 中的交互功能,例如缩放、重新着色、搜索和过滤
可扩展到数百万数据点
悬停时显示丰富信息
通过 URL 链接分享 UMAP,指向 Atlas 中的嵌入和数据地图
Nomic Atlas 示例