⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

Sentence Transformers：开源句子嵌入框架，RAG、语义搜索与文本聚类首选

sentence-transformers by orchestra-research/ai-research-skills

107 周安装量

5,000 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentence-transformers

AI/机器学习 Python Web框架自然语言处理

🇨🇳中文介绍

Sentence Transformers - 最先进的嵌入技术

使用 transformers 进行句子和文本嵌入的 Python 框架。

何时使用 Sentence Transformers

在以下情况使用：

需要为 RAG 提供高质量的嵌入
语义相似性和搜索
文本聚类和分类
多语言嵌入（支持 100+ 种语言）
本地运行嵌入（无需 API）
OpenAI 嵌入的经济高效替代方案

指标：

GitHub 星标 15,700+
预训练模型 5000+
支持 100+ 种语言
基于 PyTorch/Transformers

在以下情况使用替代方案：

OpenAI Embeddings：需要基于 API、最高质量
Instructor：特定任务指令
Cohere Embed：托管服务

快速开始

安装

pip install sentence-transformers

基本用法

from sentence_transformers import SentenceTransformer

# 加载模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 生成嵌入
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector"
]

embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

# 余弦相似度
from sentence_transformers.util import cos_sim
similarity = cos_sim(embeddings[0], embeddings[1])
print(f"Similarity: {similarity.item():.4f}")

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

949,000 周安装

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

125,600 周安装

SoulTrace 人格评估 API - 基于五色心理模型的贝叶斯自适应测试

86,000 周安装

# 快速，质量好（384 维）
model = SentenceTransformer('all-MiniLM-L6-v2')

# 质量更好（768 维）
model = SentenceTransformer('all-mpnet-base-v2')

# 最佳质量（1024 维，较慢）
model = SentenceTransformer('all-roberta-large-v1')

# 50+ 种语言
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 100+ 种语言
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

# 法律领域
model = SentenceTransformer('nlpaueb/legal-bert-base-uncased')

# 科学论文
model = SentenceTransformer('allenai/specter')

# 代码
model = SentenceTransformer('microsoft/codebert-base')

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')

# 语料库
corpus = [
    "Python is a programming language",
    "Machine learning uses algorithms",
    "Neural networks are powerful"
]

# 编码语料库
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# 查询
query = "What is Python?"
query_embedding = model.encode(query, convert_to_tensor=True)

# 查找最相似的
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)
print(hits)

# 余弦相似度
similarity = util.cos_sim(embedding1, embedding2)

# 点积
similarity = util.dot_score(embedding1, embedding2)

# 成对余弦相似度
similarities = util.cos_sim(embeddings, embeddings)

# 高效的批处理
sentences = ["sentence 1", "sentence 2", ...] * 1000

embeddings = model.encode(
    sentences,
    batch_size=32,
    show_progress_bar=True,
    convert_to_tensor=False  # 或 True 以获得 PyTorch 张量
)

from sentence_transformers import InputExample, losses
from torch.utils.data import DataLoader

# 训练数据
train_examples = [
    InputExample(texts=['sentence 1', 'sentence 2'], label=0.8),
    InputExample(texts=['sentence 3', 'sentence 4'], label=0.3),
]

train_dataloader = DataLoader(train_examples, batch_size=16)

# 损失函数
train_loss = losses.CosineSimilarityLoss(model)

# 训练
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=10,
    warmup_steps=100
)

# 保存
model.save('my-finetuned-model')

from langchain_community.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

# 与向量存储一起使用
from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

from llama_index.core import Settings
Settings.embed_model = embed_model

# 在索引中使用
index = VectorStoreIndex.from_documents(documents)

模型	维度	速度	质量	使用场景
all-MiniLM-L6-v2	384	快	良好	通用、原型设计
all-mpnet-base-v2	768	中等	更好	生产环境 RAG
all-roberta-large-v1	1024	慢	最佳	需要高精度
paraphrase-multilingual	768	中等	良好	多语言

从 all-MiniLM-L6-v2 开始 - 良好的基准
归一化嵌入 - 对余弦相似度更好
如果可用则使用 GPU - 编码速度快 10 倍
使用批量编码 - 更高效
缓存嵌入 - 重新计算成本高
针对领域进行微调 - 提高质量
测试不同的模型 - 质量因任务而异
监控内存 - 大型模型需要更多 RAM

模型	速度（句子/秒）	内存	维度
MiniLM	~2000	120MB	384
MPNet	~600	420MB	768
RoBERTa	~300	1.3GB	1024

GitHub：https://github.com/UKPLab/sentence-transformers ⭐ 15,700+
模型：https://huggingface.co/sentence-transformers
文档：https://www.sbert.net
许可证：Apache 2.0

🇺🇸English

Sentence Transformers - State-of-the-Art Embeddings

Python framework for sentence and text embeddings using transformers.

When to use Sentence Transformers

Use when:

Need high-quality embeddings for RAG
Semantic similarity and search
Text clustering and classification
Multilingual embeddings (100+ languages)
Running embeddings locally (no API)
Cost-effective alternative to OpenAI embeddings

Metrics :

15,700+ GitHub stars
5000+ pre-trained models
100+ languages supported
Based on PyTorch/Transformers

Use alternatives instead :

OpenAI Embeddings : Need API-based, highest quality
Instructor : Task-specific instructions
Cohere Embed : Managed service

Quick start

Installation

pip install sentence-transformers

Basic usage

from sentence_transformers import SentenceTransformer

# Load model
model = SentenceTransformer('all-MiniLM-L6-v2')

# Generate embeddings
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector"
]

embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

# Cosine similarity
from sentence_transformers.util import cos_sim
similarity = cos_sim(embeddings[0], embeddings[1])
print(f"Similarity: {similarity.item():.4f}")

Popular models

General purpose

# Fast, good quality (384 dim)
model = SentenceTransformer('all-MiniLM-L6-v2')

# Better quality (768 dim)
model = SentenceTransformer('all-mpnet-base-v2')

# Best quality (1024 dim, slower)
model = SentenceTransformer('all-roberta-large-v1')

Multilingual

# 50+ languages
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 100+ languages
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

Domain-specific

# Legal domain
model = SentenceTransformer('nlpaueb/legal-bert-base-uncased')

# Scientific papers
model = SentenceTransformer('allenai/specter')

# Code
model = SentenceTransformer('microsoft/codebert-base')

Semantic search

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')

# Corpus
corpus = [
    "Python is a programming language",
    "Machine learning uses algorithms",
    "Neural networks are powerful"
]

# Encode corpus
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# Query
query = "What is Python?"
query_embedding = model.encode(query, convert_to_tensor=True)

# Find most similar
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)
print(hits)

Similarity computation

# Cosine similarity
similarity = util.cos_sim(embedding1, embedding2)

# Dot product
similarity = util.dot_score(embedding1, embedding2)

# Pairwise cosine similarity
similarities = util.cos_sim(embeddings, embeddings)

Batch encoding

# Efficient batch processing
sentences = ["sentence 1", "sentence 2", ...] * 1000

embeddings = model.encode(
    sentences,
    batch_size=32,
    show_progress_bar=True,
    convert_to_tensor=False  # or True for PyTorch tensors
)

Fine-tuning

from sentence_transformers import InputExample, losses
from torch.utils.data import DataLoader

# Training data
train_examples = [
    InputExample(texts=['sentence 1', 'sentence 2'], label=0.8),
    InputExample(texts=['sentence 3', 'sentence 4'], label=0.3),
]

train_dataloader = DataLoader(train_examples, batch_size=16)

# Loss function
train_loss = losses.CosineSimilarityLoss(model)

# Train
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=10,
    warmup_steps=100
)

# Save
model.save('my-finetuned-model')

LangChain integration

from langchain_community.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

# Use with vector stores
from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

LlamaIndex integration

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

from llama_index.core import Settings
Settings.embed_model = embed_model

# Use in index
index = VectorStoreIndex.from_documents(documents)

Model selection guide

Model	Dimensions	Speed	Quality	Use Case
all-MiniLM-L6-v2	384	Fast	Good	General, prototyping
all-mpnet-base-v2	768	Medium	Better	Production RAG
all-roberta-large-v1	1024	Slow	Best	High accuracy needed
paraphrase-multilingual	768	Medium	Good	Multilingual

Best practices

Start with all-MiniLM-L6-v2 - Good baseline
Normalize embeddings - Better for cosine similarity
Use GPU if available - 10× faster encoding
Batch encoding - More efficient
Cache embeddings - Expensive to recompute
Fine-tune for domain - Improves quality
Test different models - Quality varies by task
Monitor memory - Large models need more RAM

Performance

Model	Speed (sentences/sec)	Memory	Dimension
MiniLM	~2000	120MB	384
MPNet	~600	420MB	768
RoBERTa	~300	1.3GB	1024

Resources

GitHub : https://github.com/UKPLab/sentence-transformers ⭐ 15,700+
Models : https://huggingface.co/sentence-transformers
Docs : https://www.sbert.net
License : Apache 2.0

Weekly Installs

Repository

orchestra-resea…h-skills

GitHub Stars

5.6K

First Seen

Feb 7, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode58

codex57

cursor57

gemini-cli56

claude-code55

github-copilot55

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

75,300 周安装