UMAP-Learn 教程：Python 非线性降维与数据可视化参数调优指南

umap-learn by davila7/claude-code-templates

176 周安装量

24,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill umap-learn

AI/机器学习数据可视化数据分析

🇨🇳中文介绍

UMAP-Learn

概述

UMAP（均匀流形近似与投影）是一种用于可视化和通用非线性降维的技术。应用此技能可获得快速、可扩展的嵌入，这些嵌入能保留局部和全局结构，适用于监督学习和聚类预处理。

快速开始

安装

uv pip install umap-learn

基本用法

UMAP 遵循 scikit-learn 的惯例，可以作为 t-SNE 或 PCA 的直接替代品使用。

import umap
from sklearn.preprocessing import StandardScaler

# 准备数据（标准化至关重要）
scaled_data = StandardScaler().fit_transform(data)

# 方法 1：单步操作（拟合和转换）
embedding = umap.UMAP().fit_transform(scaled_data)

# 方法 2：分步操作（用于复用训练好的模型）
reducer = umap.UMAP(random_state=42)
reducer.fit(scaled_data)
embedding = reducer.embedding_  # 访问训练好的嵌入

关键预处理要求： 在应用 UMAP 之前，务必对特征进行标准化，使其具有可比尺度，以确保各维度权重相等。

典型工作流程

import umap
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# 1. 预处理数据
scaler = StandardScaler()
scaled_data = scaler.fit_transform(raw_data)

# 2. 创建并拟合 UMAP
reducer = umap.UMAP(
    n_neighbors=15,
    min_dist=0.1,
    n_components=2,
    metric='euclidean',
    random_state=42
)
embedding = reducer.fit_transform(scaled_data)

# 3. 可视化
plt.scatter(embedding[:, 0], embedding[:, 1], c=labels, cmap='Spectral', s=5)
plt.colorbar()
plt.title('UMAP 嵌入')
plt.show()

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

n_neighbors (默认值：15)

目的： 平衡嵌入中的局部结构与全局结构。

工作原理： 控制 UMAP 在学习流形结构时检查的局部邻域大小。

不同值的效果：

低值 (2-5)： 强调精细的局部细节，但可能将数据分割成不连通的组件
中等值 (15-20)： 平衡局部结构和全局关系（推荐的起始点）
高值 (50-200)： 优先考虑广泛的拓扑结构，牺牲精细细节

建议： 从 15 开始，根据结果调整。增加以获得更多全局结构，减少以获得更多局部细节。

min_dist (默认值：0.1)

目的： 控制点在低维空间中的聚集紧密程度。

工作原理： 设置在输出表示中允许点之间的最小距离。

不同值的效果：

低值 (0.0-0.1)： 创建聚集成团的嵌入，适用于聚类；揭示精细的拓扑细节
高值 (0.5-0.99)： 防止紧密堆积；强调广泛的拓扑保持而非局部结构

建议： 聚类应用使用 0.0，可视化使用 0.1-0.3，松散结构使用 0.5+。

n_components (默认值：2)

目的： 确定嵌入输出空间的维度。

关键特性： 与 t-SNE 不同，UMAP 在嵌入维度上扩展性良好，支持超越可视化的用途。

2-3 维： 可视化
5-10 维： 聚类预处理（比 2D 更好地保持密度）
10-50 维： 为下游 ML 模型进行特征工程

建议： 可视化使用 2，聚类使用 5-10，ML 管道使用更高维度。

metric (默认值：'euclidean')

目的： 指定输入数据点之间距离的计算方式。

支持的度量标准：

Minkowski 变体： euclidean, manhattan, chebyshev
空间度量： canberra, braycurtis, haversine
相关性度量： cosine, correlation（适用于文本/文档嵌入）
二进制数据度量： hamming, jaccard, dice, russellrao, kulsinski, rogerstanimoto, sokalmichener, sokalsneath, yule
自定义度量： 通过 Numba 使用用户定义的距离函数

建议： 数值数据使用 euclidean，文本/文档向量使用 cosine，二进制数据使用 hamming。

# 用于强调局部结构的可视化
umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, metric='euclidean')

# 用于聚类预处理
umap.UMAP(n_neighbors=30, min_dist=0.0, n_components=10, metric='euclidean')

# 用于文档嵌入
umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, metric='cosine')

# 用于保持全局结构
umap.UMAP(n_neighbors=100, min_dist=0.5, n_components=2, metric='euclidean')

监督和半监督降维

UMAP 支持整合标签信息来指导嵌入过程，在保持内部结构的同时实现类别分离。

在拟合时通过 y 参数传递目标标签：

# 监督降维
embedding = umap.UMAP().fit_transform(data, y=labels)

实现清晰分离的类别
保持每个类别内的内部结构
维持类别间的全局关系

使用时机： 当您有标记数据并希望在保持有意义的点嵌入的同时分离已知类别时。

对于部分标签，按照 scikit-learn 惯例，用 -1 标记未标记的点：

# 创建半监督标签
semi_labels = labels.copy()
semi_labels[unlabeled_indices] = -1

# 使用部分标签进行拟合
embedding = umap.UMAP().fit_transform(data, y=semi_labels)

使用时机： 当标记成本高昂或您拥有的数据多于可用标签时。

使用 UMAP 进行度量学习

在标记数据上训练监督嵌入，然后应用于新的未标记数据：

# 在标记数据上训练
mapper = umap.UMAP().fit(train_data, train_labels)

# 转换未标记的测试数据
test_embedding = mapper.transform(test_data)

# 用作下游分类器的特征工程
from sklearn.svm import SVC
clf = SVC().fit(mapper.embedding_, train_labels)
predictions = clf.predict(test_embedding)

使用时机： 用于机器学习管道中的监督特征工程。

用于聚类的 UMAP

UMAP 可作为基于密度的聚类算法（如 HDBSCAN）的有效预处理步骤，克服维度灾难。

关键原则： 为聚类配置 UMAP 的方式应与可视化不同。

n_neighbors： 增加到 ~30（默认值 15 过于局部化，可能产生人为的细粒度聚类）
min_dist： 设置为 0.0（在聚类内密集地聚集点以获得更清晰的边界）
n_components： 使用 5-10 维（在保持性能的同时，比 2D 更好地保持密度）

import umap
import hdbscan
from sklearn.preprocessing import StandardScaler

# 1. 预处理数据
scaled_data = StandardScaler().fit_transform(data)

# 2. 使用聚类优化参数的 UMAP
reducer = umap.UMAP(
    n_neighbors=30,
    min_dist=0.0,
    n_components=10,  # 高于 2 以更好地保持密度
    metric='euclidean',
    random_state=42
)
embedding = reducer.fit_transform(scaled_data)

# 3. 应用 HDBSCAN 聚类
clusterer = hdbscan.HDBSCAN(
    min_cluster_size=15,
    min_samples=5,
    metric='euclidean'
)
labels = clusterer.fit_predict(embedding)

# 4. 评估
from sklearn.metrics import adjusted_rand_score
score = adjusted_rand_score(true_labels, labels)
print(f"调整兰德指数: {score:.3f}")
print(f"聚类数量: {len(set(labels)) - (1 if -1 in labels else 0)}")
print(f"噪声点: {sum(labels == -1)}")

# 为可视化创建 2D 嵌入（与聚类分开）
vis_reducer = umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, random_state=42)
vis_embedding = vis_reducer.fit_transform(scaled_data)

# 使用聚类标签绘图
import matplotlib.pyplot as plt
plt.scatter(vis_embedding[:, 0], vis_embedding[:, 1], c=labels, cmap='Spectral', s=5)
plt.colorbar()
plt.title('带有 HDBSCAN 聚类的 UMAP 可视化')
plt.show()

重要注意事项： UMAP 不能完全保持密度，并且可能产生人为的聚类划分。务必验证并探索结果聚类。

UMAP 通过其 transform() 方法支持对新数据进行预处理，允许训练好的模型将未见过的数据投影到学习到的嵌入空间中。

# 在训练数据上训练
trans = umap.UMAP(n_neighbors=15, random_state=42).fit(X_train)

# 转换测试数据
test_embedding = trans.transform(X_test)

与机器学习管道的集成

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import umap

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2)

# 预处理
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 训练 UMAP
reducer = umap.UMAP(n_components=10, random_state=42)
X_train_embedded = reducer.fit_transform(X_train_scaled)
X_test_embedded = reducer.transform(X_test_scaled)

# 在嵌入上训练分类器
clf = SVC()
clf.fit(X_train_embedded, y_train)
accuracy = clf.score(X_test_embedded, y_test)
print(f"测试准确率: {accuracy:.3f}")

数据一致性： transform 方法假设高维空间中的整体分布在训练数据和测试数据之间是一致的。当此假设不成立时，请考虑改用 Parametric UMAP。

性能： 转换操作是高效的（通常 <1 秒），但初始调用可能由于 Numba JIT 编译而较慢。

Scikit-learn 兼容性： UMAP 遵循标准的 sklearn 惯例，可在管道中无缝工作：

from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('umap', umap.UMAP(n_components=10)),
    ('classifier', SVC())
])

pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)

参数化 UMAP 用学习到的神经网络映射函数替代直接的嵌入优化。

与标准 UMAP 的主要区别：

使用 TensorFlow/Keras 训练编码器网络
支持高效转换新数据
通过解码器网络支持重建（逆变换）
允许自定义架构（用于图像的 CNN，用于序列的 RNN）

uv pip install umap-learn[parametric_umap]
# 需要 TensorFlow 2.x

from umap.parametric_umap import ParametricUMAP

# 默认架构（3 层 100 神经元全连接网络）
embedder = ParametricUMAP()
embedding = embedder.fit_transform(data)

# 高效转换新数据
new_embedding = embedder.transform(new_data)

自定义架构：

import tensorflow as tf

# 定义自定义编码器
encoder = tf.keras.Sequential([
    tf.keras.layers.InputLayer(input_shape=(input_dim,)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(2)  # 输出维度
])

embedder = ParametricUMAP(encoder=encoder, dims=(input_dim,))
embedding = embedder.fit_transform(data)

何时使用参数化 UMAP：

训练后需要高效转换新数据
需要重建能力（逆变换）
希望将 UMAP 与自编码器结合
处理复杂数据类型（图像、序列），这些类型受益于专门的架构

何时使用标准 UMAP：

需要简单性和快速原型设计
数据集较小且计算效率不关键
不需要为未来数据学习转换

逆变换支持从低维嵌入重建高维数据。

reducer = umap.UMAP()
embedding = reducer.fit_transform(data)

# 从嵌入坐标重建高维数据
reconstructed = reducer.inverse_transform(embedding)

计算开销大的操作
在嵌入的凸包外部效果不佳
在聚类间存在间隙的区域准确性下降

理解嵌入数据的结构
可视化聚类间的平滑过渡
探索数据点之间的插值
在嵌入空间中生成合成样本

示例：探索嵌入空间：

import numpy as np

# 在嵌入空间中创建点网格
x = np.linspace(embedding[:, 0].min(), embedding[:, 0].max(), 10)
y = np.linspace(embedding[:, 1].min(), embedding[:, 1].max(), 10)
xx, yy = np.meshgrid(x, y)
grid_points = np.c_[xx.ravel(), yy.ravel()]

# 从网格重建样本
reconstructed_samples = reducer.inverse_transform(grid_points)

用于分析时间序列或相关数据集（例如，时间序列实验、批次数据）：

from umap import AlignedUMAP

# 相关数据集列表
datasets = [day1_data, day2_data, day3_data]

# 创建对齐的嵌入
mapper = AlignedUMAP().fit(datasets)
aligned_embeddings = mapper.embeddings_  # 嵌入列表

使用时机： 在保持一致坐标系的同时，比较跨相关数据集的嵌入。

为确保结果可重现，请始终设置 random_state 参数：

reducer = umap.UMAP(random_state=42)

UMAP 使用随机优化，因此如果没有固定的随机状态，不同运行之间的结果会略有不同。

常见问题及解决方案

问题： 不连通的组件或碎片化的聚类

解决方案： 增加 n_neighbors 以强调更多全局结构

问题： 聚类过于分散或分离不佳

解决方案： 减小 min_dist 以允许更紧密的聚集

问题： 聚类结果不佳

解决方案： 使用聚类专用参数 (n_neighbors=30, min_dist=0.0, n_components=5-10)

问题： 转换结果与训练结果差异显著

解决方案： 确保测试数据分布与训练数据匹配，或使用参数化 UMAP

问题： 大型数据集上性能缓慢

解决方案： 设置 low_memory=True（默认），或考虑先使用 PCA 进行降维

问题： 所有点都塌缩到单个聚类

解决方案： 检查数据预处理（确保正确缩放），增加 min_dist

包含详细的 API 文档：

api_reference.md：完整的 UMAP 类参数和方法

当需要详细的参数信息或高级方法用法时，请加载这些参考资料。

🇺🇸English

UMAP-Learn

Overview

UMAP (Uniform Manifold Approximation and Projection) is a dimensionality reduction technique for visualization and general non-linear dimensionality reduction. Apply this skill for fast, scalable embeddings that preserve local and global structure, supervised learning, and clustering preprocessing.

Quick Start

Installation

uv pip install umap-learn

Basic Usage

UMAP follows scikit-learn conventions and can be used as a drop-in replacement for t-SNE or PCA.

import umap
from sklearn.preprocessing import StandardScaler

# Prepare data (standardization is essential)
scaled_data = StandardScaler().fit_transform(data)

# Method 1: Single step (fit and transform)
embedding = umap.UMAP().fit_transform(scaled_data)

# Method 2: Separate steps (for reusing trained model)
reducer = umap.UMAP(random_state=42)
reducer.fit(scaled_data)
embedding = reducer.embedding_  # Access the trained embedding

Critical preprocessing requirement: Always standardize features to comparable scales before applying UMAP to ensure equal weighting across dimensions.

Typical Workflow

import umap
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# 1. Preprocess data
scaler = StandardScaler()
scaled_data = scaler.fit_transform(raw_data)

# 2. Create and fit UMAP
reducer = umap.UMAP(
    n_neighbors=15,
    min_dist=0.1,
    n_components=2,
    metric='euclidean',
    random_state=42
)
embedding = reducer.fit_transform(scaled_data)

# 3. Visualize
plt.scatter(embedding[:, 0], embedding[:, 1], c=labels, cmap='Spectral', s=5)
plt.colorbar()
plt.title('UMAP Embedding')
plt.show()

Parameter Tuning Guide

UMAP has four primary parameters that control the embedding behavior. Understanding these is crucial for effective usage.

n_neighbors (default: 15)

Purpose: Balances local versus global structure in the embedding.

How it works: Controls the size of the local neighborhood UMAP examines when learning manifold structure.

Effects by value:

Low values (2-5): Emphasizes fine local detail but may fragment data into disconnected components
Medium values (15-20): Balanced view of both local structure and global relationships (recommended starting point)
High values (50-200): Prioritizes broad topological structure at the expense of fine-grained details

Recommendation: Start with 15 and adjust based on results. Increase for more global structure, decrease for more local detail.

min_dist (default: 0.1)

Purpose: Controls how tightly points cluster in the low-dimensional space.

How it works: Sets the minimum distance apart that points are allowed to be in the output representation.

Effects by value:

Low values (0.0-0.1): Creates clumped embeddings useful for clustering; reveals fine topological details
High values (0.5-0.99): Prevents tight packing; emphasizes broad topological preservation over local structure

Recommendation: Use 0.0 for clustering applications, 0.1-0.3 for visualization, 0.5+ for loose structure.

n_components (default: 2)

Purpose: Determines the dimensionality of the embedded output space.

Key feature: Unlike t-SNE, UMAP scales well in the embedding dimension, enabling use beyond visualization.

Common uses:

2-3 dimensions: Visualization
5-10 dimensions: Clustering preprocessing (better preserves density than 2D)
10-50 dimensions: Feature engineering for downstream ML models

Recommendation: Use 2 for visualization, 5-10 for clustering, higher for ML pipelines.

metric (default: 'euclidean')

Purpose: Specifies how distance is calculated between input data points.

Supported metrics:

Minkowski variants: euclidean, manhattan, chebyshev
Spatial metrics: canberra, braycurtis, haversine
Correlation metrics: cosine, correlation (good for text/document embeddings)
Binary data metrics: hamming, jaccard, dice, russellrao, kulsinski, rogerstanimoto, sokalmichener, sokalsneath, yule
Custom metrics: User-defined distance functions via Numba

Recommendation: Use euclidean for numeric data, cosine for text/document vectors, hamming for binary data.

Parameter Tuning Example

# For visualization with emphasis on local structure
umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, metric='euclidean')

# For clustering preprocessing
umap.UMAP(n_neighbors=30, min_dist=0.0, n_components=10, metric='euclidean')

# For document embeddings
umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, metric='cosine')

# For preserving global structure
umap.UMAP(n_neighbors=100, min_dist=0.5, n_components=2, metric='euclidean')

Supervised and Semi-Supervised Dimension Reduction

UMAP supports incorporating label information to guide the embedding process, enabling class separation while preserving internal structure.

Supervised UMAP

Pass target labels via the y parameter when fitting:

# Supervised dimension reduction
embedding = umap.UMAP().fit_transform(data, y=labels)

Key benefits:

Achieves cleanly separated classes
Preserves internal structure within each class
Maintains global relationships between classes

When to use: When you have labeled data and want to separate known classes while keeping meaningful point embeddings.

Semi-Supervised UMAP

For partial labels, mark unlabeled points with -1 following scikit-learn convention:

# Create semi-supervised labels
semi_labels = labels.copy()
semi_labels[unlabeled_indices] = -1

# Fit with partial labels
embedding = umap.UMAP().fit_transform(data, y=semi_labels)

When to use: When labeling is expensive or you have more data than labels available.

Metric Learning with UMAP

Train a supervised embedding on labeled data, then apply to new unlabeled data:

# Train on labeled data
mapper = umap.UMAP().fit(train_data, train_labels)

# Transform unlabeled test data
test_embedding = mapper.transform(test_data)

# Use as feature engineering for downstream classifier
from sklearn.svm import SVC
clf = SVC().fit(mapper.embedding_, train_labels)
predictions = clf.predict(test_embedding)

When to use: For supervised feature engineering in machine learning pipelines.

UMAP for Clustering

UMAP serves as effective preprocessing for density-based clustering algorithms like HDBSCAN, overcoming the curse of dimensionality.

Best Practices for Clustering

Key principle: Configure UMAP differently for clustering than for visualization.

Recommended parameters:

n_neighbors: Increase to ~30 (default 15 is too local and can create artificial fine-grained clusters)
min_dist: Set to 0.0 (pack points densely within clusters for clearer boundaries)
n_components: Use 5-10 dimensions (maintains performance while improving density preservation vs. 2D)

Clustering Workflow

import umap
import hdbscan
from sklearn.preprocessing import StandardScaler

# 1. Preprocess data
scaled_data = StandardScaler().fit_transform(data)

# 2. UMAP with clustering-optimized parameters
reducer = umap.UMAP(
    n_neighbors=30,
    min_dist=0.0,
    n_components=10,  # Higher than 2 for better density preservation
    metric='euclidean',
    random_state=42
)
embedding = reducer.fit_transform(scaled_data)

# 3. Apply HDBSCAN clustering
clusterer = hdbscan.HDBSCAN(
    min_cluster_size=15,
    min_samples=5,
    metric='euclidean'
)
labels = clusterer.fit_predict(embedding)

# 4. Evaluate
from sklearn.metrics import adjusted_rand_score
score = adjusted_rand_score(true_labels, labels)
print(f"Adjusted Rand Score: {score:.3f}")
print(f"Number of clusters: {len(set(labels)) - (1 if -1 in labels else 0)}")
print(f"Noise points: {sum(labels == -1)}")

Visualization After Clustering

# Create 2D embedding for visualization (separate from clustering)
vis_reducer = umap.UMAP(n_neighbors=15, min_dist=0.1, n_components=2, random_state=42)
vis_embedding = vis_reducer.fit_transform(scaled_data)

# Plot with cluster labels
import matplotlib.pyplot as plt
plt.scatter(vis_embedding[:, 0], vis_embedding[:, 1], c=labels, cmap='Spectral', s=5)
plt.colorbar()
plt.title('UMAP Visualization with HDBSCAN Clusters')
plt.show()

Important caveat: UMAP does not completely preserve density and can create artificial cluster divisions. Always validate and explore resulting clusters.

Transforming New Data

UMAP enables preprocessing of new data through its transform() method, allowing trained models to project unseen data into the learned embedding space.

Basic Transform Usage

# Train on training data
trans = umap.UMAP(n_neighbors=15, random_state=42).fit(X_train)

# Transform test data
test_embedding = trans.transform(X_test)

Integration with Machine Learning Pipelines

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import umap

# Split data
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2)

# Preprocess
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Train UMAP
reducer = umap.UMAP(n_components=10, random_state=42)
X_train_embedded = reducer.fit_transform(X_train_scaled)
X_test_embedded = reducer.transform(X_test_scaled)

# Train classifier on embeddings
clf = SVC()
clf.fit(X_train_embedded, y_train)
accuracy = clf.score(X_test_embedded, y_test)
print(f"Test accuracy: {accuracy:.3f}")

Important Considerations

Data consistency: The transform method assumes the overall distribution in the higher-dimensional space is consistent between training and test data. When this assumption fails, consider using Parametric UMAP instead.

Performance: Transform operations are efficient (typically <1 second), though initial calls may be slower due to Numba JIT compilation.

Scikit-learn compatibility: UMAP follows standard sklearn conventions and works seamlessly in pipelines:

from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('umap', umap.UMAP(n_components=10)),
    ('classifier', SVC())
])

pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)

Advanced Features

Parametric UMAP

Parametric UMAP replaces direct embedding optimization with a learned neural network mapping function.

Key differences from standard UMAP:

Uses TensorFlow/Keras to train encoder networks
Enables efficient transformation of new data
Supports reconstruction via decoder networks (inverse transform)
Allows custom architectures (CNNs for images, RNNs for sequences)

Installation:

uv pip install umap-learn[parametric_umap]
# Requires TensorFlow 2.x

Basic usage:

from umap.parametric_umap import ParametricUMAP

# Default architecture (3-layer 100-neuron fully-connected network)
embedder = ParametricUMAP()
embedding = embedder.fit_transform(data)

# Transform new data efficiently
new_embedding = embedder.transform(new_data)

Custom architecture:

import tensorflow as tf

# Define custom encoder
encoder = tf.keras.Sequential([
    tf.keras.layers.InputLayer(input_shape=(input_dim,)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(2)  # Output dimension
])

embedder = ParametricUMAP(encoder=encoder, dims=(input_dim,))
embedding = embedder.fit_transform(data)

When to use Parametric UMAP:

Need efficient transformation of new data after training
Require reconstruction capabilities (inverse transforms)
Want to combine UMAP with autoencoders
Working with complex data types (images, sequences) benefiting from specialized architectures

When to use standard UMAP:

Need simplicity and quick prototyping
Dataset is small and computational efficiency isn't critical
Don't require learned transformations for future data

Inverse Transforms

Inverse transforms enable reconstruction of high-dimensional data from low-dimensional embeddings.

Basic usage:

reducer = umap.UMAP()
embedding = reducer.fit_transform(data)

# Reconstruct high-dimensional data from embedding coordinates
reconstructed = reducer.inverse_transform(embedding)

Important limitations:

Computationally expensive operation
Works poorly outside the convex hull of the embedding
Accuracy decreases in regions with gaps between clusters

Use cases:

Understanding structure of embedded data
Visualizing smooth transitions between clusters
Exploring interpolations between data points
Generating synthetic samples in embedding space

Example: Exploring embedding space:

import numpy as np

# Create grid of points in embedding space
x = np.linspace(embedding[:, 0].min(), embedding[:, 0].max(), 10)
y = np.linspace(embedding[:, 1].min(), embedding[:, 1].max(), 10)
xx, yy = np.meshgrid(x, y)
grid_points = np.c_[xx.ravel(), yy.ravel()]

# Reconstruct samples from grid
reconstructed_samples = reducer.inverse_transform(grid_points)

AlignedUMAP

For analyzing temporal or related datasets (e.g., time-series experiments, batch data):

from umap import AlignedUMAP

# List of related datasets
datasets = [day1_data, day2_data, day3_data]

# Create aligned embeddings
mapper = AlignedUMAP().fit(datasets)
aligned_embeddings = mapper.embeddings_  # List of embeddings

When to use: Comparing embeddings across related datasets while maintaining consistent coordinate systems.

Reproducibility

To ensure reproducible results, always set the random_state parameter:

reducer = umap.UMAP(random_state=42)

UMAP uses stochastic optimization, so results will vary slightly between runs without a fixed random state.

Common Issues and Solutions

Issue: Disconnected components or fragmented clusters

Solution: Increase n_neighbors to emphasize more global structure

Issue: Clusters too spread out or not well separated

Solution: Decrease min_dist to allow tighter packing

Issue: Poor clustering results

Solution: Use clustering-specific parameters (n_neighbors=30, min_dist=0.0, n_components=5-10)

Issue: Transform results differ significantly from training

Solution: Ensure test data distribution matches training, or use Parametric UMAP

Issue: Slow performance on large datasets

Solution: Set low_memory=True (default), or consider dimensionality reduction with PCA first

Issue: All points collapsed to single cluster

Solution: Check data preprocessing (ensure proper scaling), increase min_dist

Resources

references/

Contains detailed API documentation:

api_reference.md: Complete UMAP class parameters and methods

Load these references when detailed parameter information or advanced method usage is needed.

Weekly Installs

135

Repository

davila7/claude-…emplates

GitHub Stars

23.4K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code120

opencode110

gemini-cli106

cursor104

antigravity102

codex96

专业SEO审计工具：全面网站诊断、技术SEO优化与页面分析指南

68,800 周安装

UMAP-Learn 教程：Python 非线性降维与数据可视化参数调优指南

🇨🇳中文介绍

UMAP-Learn

概述

快速开始

安装

基本用法

典型工作流程

相关 Skills

参数调优指南

n_neighbors (默认值：15)

min_dist (默认值：0.1)

n_components (默认值：2)

metric (默认值：'euclidean')

参数调优示例

监督和半监督降维

监督 UMAP

半监督 UMAP

使用 UMAP 进行度量学习

用于聚类的 UMAP

聚类最佳实践

聚类工作流程

聚类后可视化

转换新数据

基本转换用法

与机器学习管道的集成

重要注意事项

高级功能

参数化 UMAP

逆变换

AlignedUMAP

可重现性

常见问题及解决方案

资源

references/

🇺🇸English

UMAP-Learn

Overview

Quick Start

Installation

Basic Usage

Typical Workflow

Parameter Tuning Guide

n_neighbors (default: 15)

min_dist (default: 0.1)

n_components (default: 2)

metric (default: 'euclidean')

Parameter Tuning Example

Supervised and Semi-Supervised Dimension Reduction

Supervised UMAP

Semi-Supervised UMAP

Metric Learning with UMAP

UMAP for Clustering

Best Practices for Clustering

Clustering Workflow

Visualization After Clustering

Transforming New Data

Basic Transform Usage

Integration with Machine Learning Pipelines

Important Considerations

Advanced Features

Parametric UMAP

Inverse Transforms

AlignedUMAP

Reproducibility

Common Issues and Solutions

Resources

references/

最新 Skills