使用 Nomic Atlas 进行文本嵌入的 UMAP

Nomic Atlas 是一个用于交互式可视化和探索海量数据集的平台。它使用 UMAP 自动化创建嵌入和二维坐标投影。

UMAP interactive visualization with Nomic Atlas

Nomic Atlas 自动为您的数据生成嵌入,并允许您在网页浏览器中探索大型数据集。Atlas 提供

  • 使用 Atlas Analyst 对您的 UMAP 数据进行浏览器内部分析

  • 使用 Nomic API 对您的 UMAP 数据进行向量搜索

  • Nomic Atlas data map 中提供缩放、重新着色、搜索和过滤等交互功能

  • 可扩展到数百万数据点

  • 悬停时显示丰富信息

  • 通过 URL 链接分享 Atlas 中的 UMAP(指向您的嵌入和数据地图)

本示例演示了如何使用 Nomic Atlas 来使用嵌入和 UMAP 创建交互式文本地图。

设置

  1. 使用 pip instll nomic pandas 获取所需的 python 包

  2. 在此处获取 Nomic API 密钥 here

  3. 在终端窗口中运行 nomic login nk-... 或使用以下代码

import nomic
nomic.login('nk-...')

下载示例数据

import pandas as pd

# Example data
df = pd.read_csv("https://docs.nomic.ai/singapore_airlines_reviews.csv")

创建 Atlas 数据集

from nomic import AtlasDataset
dataset = AtlasDataset("airline-reviews-data")

上传到 Atlas

dataset.add_data(df)

创建数据地图

我们将 df 中的 text 字段指定为创建嵌入的字段。我们还选择了一些标准的 UMAP 参数。

from nomic.data_inference import ProjectionOptions

# model="umap" is how you choose UMAP in Nomic Atlas
# You can adjust n_neighbors, min_dist,
# and n_epochs as you would with the UMAP library.
atlas_map = dataset.create_index(
    indexed_field='text',
    projection=ProjectionOptions(
      model="umap",
      n_neighbors=20,
      min_dist=0.01,
      n_epochs=200
  )
)

print(f"Explore your interactive map at: {atlas_map.map_link}")

您的地图将可在您的 Atlas Dashboard 中查看。