iOS Swift NaturalLanguage 与 Translation 框架：文本分析与语言翻译开发指南

natural-language by dpearson2699/swift-ios-skills

333 周安装量

269 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/dpearson2699/swift-ios-skills --skill natural-language

iOS Swift 自然语言处理

🇨🇳中文介绍

NaturalLanguage + Translation

分析自然语言文本，进行分词、词性标注、命名实体识别、情感分析、语言识别以及词/句向量嵌入。使用 Translation 框架在不同语言之间翻译文本。目标版本为 Swift 6.2 / iOS 26+。

此技能涵盖两个相关框架：用于设备端文本分析的 NaturalLanguage (NLTokenizer, NLTagger, NLEmbedding) 和用于语言翻译的 Translation (TranslationSession, LanguageAvailability)。

设置

导入 NaturalLanguage 用于文本分析，导入用于语言翻译。NaturalLanguage 不需要特殊的权限或能力。Translation 需要 iOS 17.4+ / macOS 14.4+。

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

iOS 26 FoundationModels 设备端大模型集成指南：隐私优先的AI开发

1,100 周安装

签证文件自动翻译工具 - 支持OCR识别、专业翻译、PDF生成，一站式处理签证申请材料

1,000 周安装

韩语AI写作检测与校正器humanizer - 基于科学研究的自然语言优化工具

990 周安装

奥派经济聊天室：AI模拟哈耶克与米塞斯对话，探讨奥地利学派经济学

969 周安装

import NaturalLanguage
import Translation

NaturalLanguage 类 (NLTokenizer, NLTagger) 不是线程安全的。请确保每个实例在同一时间只在一个线程或调度队列中使用。

使用 NLTokenizer 将文本分割成单词、句子或段落。

import NaturalLanguage

func tokenizeWords(in text: String) -> [String] {
    let tokenizer = NLTokenizer(unit: .word)
    tokenizer.string = text

    let range = text.startIndex..<text.endIndex
    return tokenizer.tokens(for: range).map { String(text[$0]) }
}

单位	描述
`.word`	单个单词
`.sentence`	句子
`.paragraph`	段落
`.document`	整个文档

使用 enumerateTokens(in:using:) 来检测数字或表情符号标记。

let tokenizer = NLTokenizer(unit: .word)
tokenizer.string = text

tokenizer.enumerateTokens(in: text.startIndex..<text.endIndex) { range, attributes in
    if attributes.contains(.numeric) {
        print("Number: \(text[range])")
    }
    return true // 继续枚举
}

使用 NLLanguageRecognizer 检测字符串的主要语言。

func detectLanguage(for text: String) -> NLLanguage? {
    NLLanguageRecognizer.dominantLanguage(for: text)
}

// 获取带有置信度分数的多种语言假设
func languageHypotheses(for text: String, max: Int = 5) -> [NLLanguage: Double] {
    let recognizer = NLLanguageRecognizer()
    recognizer.processString(text)
    return recognizer.languageHypotheses(withMaximum: max)
}

将识别器限制在预期的语言范围内，可以提高短文本的识别准确度。

let recognizer = NLLanguageRecognizer()
recognizer.languageConstraints = [.english, .french, .spanish]
recognizer.processString(text)
let detected = recognizer.dominantLanguage

使用 NLTagger 识别名词、动词、形容词和其他词类。

func tagPartsOfSpeech(in text: String) -> [(String, NLTag)] {
    let tagger = NLTagger(tagSchemes: [.lexicalClass])
    tagger.string = text

    var results: [(String, NLTag)] = []
    let range = text.startIndex..<text.endIndex
    let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace]

    tagger.enumerateTags(in: range, unit: .word, scheme: .lexicalClass, options: options) { tag, tokenRange in
        if let tag {
            results.append((String(text[tokenRange]), tag))
        }
        return true
    }
    return results
}

方案	输出
`.lexicalClass`	词性（名词、动词、形容词）
`.nameType`	命名实体类型（人物、地点、组织）
`.nameTypeOrLexicalClass`	命名实体识别 + 词性标注组合
`.lemma`	单词的基本形式
`.language`	每个标记的语言
`.sentimentScore`	情感极性分数

提取人物、地点和组织。

func extractEntities(from text: String) -> [(String, NLTag)] {
    let tagger = NLTagger(tagSchemes: [.nameType])
    tagger.string = text

    var entities: [(String, NLTag)] = []
    let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace, .joinNames]

    tagger.enumerateTags(
        in: text.startIndex..<text.endIndex,
        unit: .word,
        scheme: .nameType,
        options: options
    ) { tag, tokenRange in
        if let tag, tag != .other {
            entities.append((String(text[tokenRange]), tag))
        }
        return true
    }
    return entities
}
// NLTag 值: .personalName, .placeName, .organizationName

对文本情感进行评分，范围从 -1.0（负面）到 +1.0（正面）。

func sentimentScore(for text: String) -> Double? {
    let tagger = NLTagger(tagSchemes: [.sentimentScore])
    tagger.string = text

    let (tag, _) = tagger.tag(
        at: text.startIndex,
        unit: .paragraph,
        scheme: .sentimentScore
    )
    return tag.flatMap { Double($0.rawValue) }
}

使用 NLEmbedding 测量单词或句子之间的语义相似度。

func wordSimilarity(_ word1: String, _ word2: String) -> Double? {
    guard let embedding = NLEmbedding.wordEmbedding(for: .english) else { return nil }
    return embedding.distance(between: word1, and: word2, distanceType: .cosine)
}

func findSimilarWords(to word: String, count: Int = 5) -> [(String, Double)] {
    guard let embedding = NLEmbedding.wordEmbedding(for: .english) else { return [] }
    return embedding.neighbors(for: word, maximumCount: count, distanceType: .cosine)
}

句子嵌入用于比较整个句子。

func sentenceSimilarity(_ s1: String, _ s2: String) -> Double? {
    guard let embedding = NLEmbedding.sentenceEmbedding(for: .english) else { return nil }
    return embedding.distance(between: s1, and: s2, distanceType: .cosine)
}

系统翻译叠加层

使用 .translationPresentation() 显示内置的翻译界面。

import SwiftUI
import Translation

struct TranslatableView: View {
    @State private var showTranslation = false
    let text = "Hello, how are you?"

    var body: some View {
        Text(text)
            .onTapGesture { showTranslation = true }
            .translationPresentation(
                isPresented: $showTranslation,
                text: text
            )
    }
}

在视图上下文中使用 .translationTask() 进行编程式翻译。

struct TranslatingView: View {
    @State private var translatedText = ""
    @State private var configuration: TranslationSession.Configuration?

    var body: some View {
        VStack {
            Text(translatedText)
            Button("Translate") {
                configuration = .init(source: Locale.Language(identifier: "en"),
                                      target: Locale.Language(identifier: "es"))
            }
        }
        .translationTask(configuration) { session in
            let response = try await session.translate("Hello, world!")
            translatedText = response.targetText
        }
    }
}

在单个会话中翻译多个字符串。

.translationTask(configuration) { session in
    let requests = texts.enumerated().map { index, text in
        TranslationSession.Request(sourceText: text,
                                    clientIdentifier: "\(index)")
    }
    let responses = try await session.translations(from: requests)
    for response in responses {
        print("\(response.sourceText) -> \(response.targetText)")
    }
}

检查语言可用性

let availability = LanguageAvailability()
let status = await availability.status(
    from: Locale.Language(identifier: "en"),
    to: Locale.Language(identifier: "ja")
)
switch status {
case .installed: break    // 已安装，可离线翻译
case .supported: break    // 支持，需要下载
case .unsupported: break  // 不支持的语言对
}

错误：跨线程共享 NLTagger/NLTokenizer

这些类不是线程安全的，会导致结果错误或崩溃。

// 错误示例
let sharedTagger = NLTagger(tagSchemes: [.lexicalClass])
DispatchQueue.concurrentPerform(iterations: 10) { _ in
    sharedTagger.string = someText  // 数据竞争
}

// 正确示例
await withTaskGroup(of: Void.self) { group in
    for _ in 0..<10 {
        group.addTask {
            let tagger = NLTagger(tagSchemes: [.lexicalClass])
            tagger.string = someText
            // 处理...
        }
    }
}

错误：混淆 NaturalLanguage 与 Core ML

NaturalLanguage 提供内置的语言分析。使用 Core ML 处理自定义训练的模型。它们通过 NLModel 相互补充。

// 错误：尝试使用原始的 Core ML 进行命名实体识别
let coreMLModel = try MLModel(contentsOf: modelURL)

// 正确：使用 NLTagger 进行内置的命名实体识别
let tagger = NLTagger(tagSchemes: [.nameType])

// 或者通过 NLModel 加载自定义的 Core ML 模型
let nlModel = try NLModel(mlModel: coreMLModel)
tagger.setModels([nlModel], forTagScheme: .nameType)

错误：假设所有语言都有可用的嵌入向量

并非所有语言在设备上都有可用的词或句嵌入向量。

// 错误：强制解包
let embedding = NLEmbedding.wordEmbedding(for: .japanese)!

// 正确：处理 nil 值
guard let embedding = NLEmbedding.wordEmbedding(for: .japanese) else {
    // 该语言没有可用的嵌入向量
    return
}

错误：为每个标记创建新的标注器

创建和配置标注器开销很大。对同一文本应复用标注器。

// 错误：为每个单词创建新的标注器
for word in words {
    let tagger = NLTagger(tagSchemes: [.lexicalClass])
    tagger.string = word
}

// 正确：设置一次字符串，然后枚举
let tagger = NLTagger(tagSchemes: [.lexicalClass])
tagger.string = fullText
tagger.enumerateTags(in: fullText.startIndex..<fullText.endIndex,
                     unit: .word, scheme: .lexicalClass, options: []) { tag, range in
    return true
}

错误：忽略短文本的语言提示

短字符串（约 20 个字符以下）的语言检测不可靠。设置约束或提示以提高准确度。

// 错误：检测单个单词的语言
let lang = NLLanguageRecognizer.dominantLanguage(for: "chat")  // 法语还是英语？

// 正确：提供上下文
let recognizer = NLLanguageRecognizer()
recognizer.languageHints = [.english: 0.8, .french: 0.2]
recognizer.processString("chat")

NLTokenizer 和 NLTagger 实例在单个线程中使用
每个文本创建一次标注器，而不是每个标记
短文本的语言检测使用了约束/提示
使用 NLEmbedding 前检查了可用性（如果不可用则返回 nil）
尝试翻译前检查了 Translation 的 LanguageAvailability
.translationTask() 在 SwiftUI 视图层次结构中使用
批量翻译使用 clientIdentifier 来匹配响应和请求
情感分数作为可选值处理（对于不支持的语言可能返回 nil）
命名实体识别使用了 .joinNames 选项以保持多词名称在一起
自定义 ML 模型通过 NLModel 加载，而不是原始的 Core ML

扩展模式（自定义模型、上下文嵌入、地名录）：references/translation-patterns.md
Natural Language 框架
NLTokenizer
NLTagger
NLEmbedding
NLLanguageRecognizer
Translation 框架
TranslationSession
LanguageAvailability

🇺🇸English

NaturalLanguage + Translation

Analyze natural language text for tokenization, part-of-speech tagging, named entity recognition, sentiment analysis, language identification, and word/sentence embeddings. Translate text between languages with the Translation framework. Targets Swift 6.2 / iOS 26+.

This skill covers two related frameworks: NaturalLanguage (NLTokenizer, NLTagger, NLEmbedding) for on-device text analysis, and Translation (TranslationSession, LanguageAvailability) for language translation.

Setup
Tokenization
Language Identification
Part-of-Speech Tagging
Named Entity Recognition
Sentiment Analysis
Text Embeddings
Translation
Common Mistakes
Review Checklist
References

Setup

Import NaturalLanguage for text analysis and Translation for language translation. No special entitlements or capabilities are required for NaturalLanguage. Translation requires iOS 17.4+ / macOS 14.4+.

import NaturalLanguage
import Translation

NaturalLanguage classes (NLTokenizer, NLTagger) are not thread-safe. Use each instance from one thread or dispatch queue at a time.

Tokenization

Segment text into words, sentences, or paragraphs with NLTokenizer.

import NaturalLanguage

func tokenizeWords(in text: String) -> [String] {
    let tokenizer = NLTokenizer(unit: .word)
    tokenizer.string = text

    let range = text.startIndex..<text.endIndex
    return tokenizer.tokens(for: range).map { String(text[$0]) }
}

Token Units

Unit	Description
`.word`	Individual words
`.sentence`	Sentences
`.paragraph`	Paragraphs
`.document`	Entire document

Enumerating with Attributes

Use enumerateTokens(in:using:) to detect numeric or emoji tokens.

let tokenizer = NLTokenizer(unit: .word)
tokenizer.string = text

tokenizer.enumerateTokens(in: text.startIndex..<text.endIndex) { range, attributes in
    if attributes.contains(.numeric) {
        print("Number: \(text[range])")
    }
    return true // continue enumeration
}

Language Identification

Detect the dominant language of a string with NLLanguageRecognizer.

func detectLanguage(for text: String) -> NLLanguage? {
    NLLanguageRecognizer.dominantLanguage(for: text)
}

// Multiple hypotheses with confidence scores
func languageHypotheses(for text: String, max: Int = 5) -> [NLLanguage: Double] {
    let recognizer = NLLanguageRecognizer()
    recognizer.processString(text)
    return recognizer.languageHypotheses(withMaximum: max)
}

Constrain the recognizer to expected languages for better accuracy on short text.

let recognizer = NLLanguageRecognizer()
recognizer.languageConstraints = [.english, .french, .spanish]
recognizer.processString(text)
let detected = recognizer.dominantLanguage

Part-of-Speech Tagging

Identify nouns, verbs, adjectives, and other lexical classes with NLTagger.

func tagPartsOfSpeech(in text: String) -> [(String, NLTag)] {
    let tagger = NLTagger(tagSchemes: [.lexicalClass])
    tagger.string = text

    var results: [(String, NLTag)] = []
    let range = text.startIndex..<text.endIndex
    let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace]

    tagger.enumerateTags(in: range, unit: .word, scheme: .lexicalClass, options: options) { tag, tokenRange in
        if let tag {
            results.append((String(text[tokenRange]), tag))
        }
        return true
    }
    return results
}

Common Tag Schemes

Scheme	Output
`.lexicalClass`	Part of speech (noun, verb, adjective)
`.nameType`	Named entity type (person, place, organization)
`.nameTypeOrLexicalClass`	Combined NER + POS
`.lemma`	Base form of a word
`.language`	Per-token language
`.sentimentScore`	Sentiment polarity score

Named Entity Recognition

Extract people, places, and organizations.

func extractEntities(from text: String) -> [(String, NLTag)] {
    let tagger = NLTagger(tagSchemes: [.nameType])
    tagger.string = text

    var entities: [(String, NLTag)] = []
    let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace, .joinNames]

    tagger.enumerateTags(
        in: text.startIndex..<text.endIndex,
        unit: .word,
        scheme: .nameType,
        options: options
    ) { tag, tokenRange in
        if let tag, tag != .other {
            entities.append((String(text[tokenRange]), tag))
        }
        return true
    }
    return entities
}
// NLTag values: .personalName, .placeName, .organizationName

Sentiment Analysis

Score text sentiment from -1.0 (negative) to +1.0 (positive).

func sentimentScore(for text: String) -> Double? {
    let tagger = NLTagger(tagSchemes: [.sentimentScore])
    tagger.string = text

    let (tag, _) = tagger.tag(
        at: text.startIndex,
        unit: .paragraph,
        scheme: .sentimentScore
    )
    return tag.flatMap { Double($0.rawValue) }
}

Text Embeddings

Measure semantic similarity between words or sentences with NLEmbedding.

func wordSimilarity(_ word1: String, _ word2: String) -> Double? {
    guard let embedding = NLEmbedding.wordEmbedding(for: .english) else { return nil }
    return embedding.distance(between: word1, and: word2, distanceType: .cosine)
}

func findSimilarWords(to word: String, count: Int = 5) -> [(String, Double)] {
    guard let embedding = NLEmbedding.wordEmbedding(for: .english) else { return [] }
    return embedding.neighbors(for: word, maximumCount: count, distanceType: .cosine)
}

Sentence embeddings compare entire sentences.

func sentenceSimilarity(_ s1: String, _ s2: String) -> Double? {
    guard let embedding = NLEmbedding.sentenceEmbedding(for: .english) else { return nil }
    return embedding.distance(between: s1, and: s2, distanceType: .cosine)
}

Translation

System Translation Overlay

Show the built-in translation UI with .translationPresentation().

import SwiftUI
import Translation

struct TranslatableView: View {
    @State private var showTranslation = false
    let text = "Hello, how are you?"

    var body: some View {
        Text(text)
            .onTapGesture { showTranslation = true }
            .translationPresentation(
                isPresented: $showTranslation,
                text: text
            )
    }
}

Programmatic Translation

Use .translationTask() for programmatic translations within a view context.

struct TranslatingView: View {
    @State private var translatedText = ""
    @State private var configuration: TranslationSession.Configuration?

    var body: some View {
        VStack {
            Text(translatedText)
            Button("Translate") {
                configuration = .init(source: Locale.Language(identifier: "en"),
                                      target: Locale.Language(identifier: "es"))
            }
        }
        .translationTask(configuration) { session in
            let response = try await session.translate("Hello, world!")
            translatedText = response.targetText
        }
    }
}

Batch Translation

Translate multiple strings in a single session.

.translationTask(configuration) { session in
    let requests = texts.enumerated().map { index, text in
        TranslationSession.Request(sourceText: text,
                                    clientIdentifier: "\(index)")
    }
    let responses = try await session.translations(from: requests)
    for response in responses {
        print("\(response.sourceText) -> \(response.targetText)")
    }
}

Checking Language Availability

let availability = LanguageAvailability()
let status = await availability.status(
    from: Locale.Language(identifier: "en"),
    to: Locale.Language(identifier: "ja")
)
switch status {
case .installed: break    // Ready to translate offline
case .supported: break    // Needs download
case .unsupported: break  // Language pair not available
}

Common Mistakes

DON'T: Share NLTagger/NLTokenizer across threads

These classes are not thread-safe and will produce incorrect results or crash.

// WRONG
let sharedTagger = NLTagger(tagSchemes: [.lexicalClass])
DispatchQueue.concurrentPerform(iterations: 10) { _ in
    sharedTagger.string = someText  // Data race
}

// CORRECT
await withTaskGroup(of: Void.self) { group in
    for _ in 0..<10 {
        group.addTask {
            let tagger = NLTagger(tagSchemes: [.lexicalClass])
            tagger.string = someText
            // process...
        }
    }
}

DON'T: Confuse NaturalLanguage with Core ML

NaturalLanguage provides built-in linguistic analysis. Use Core ML for custom trained models. They complement each other via NLModel.

// WRONG: Trying to do NER with raw Core ML
let coreMLModel = try MLModel(contentsOf: modelURL)

// CORRECT: Use NLTagger for built-in NER
let tagger = NLTagger(tagSchemes: [.nameType])

// Or load a custom Core ML model via NLModel
let nlModel = try NLModel(mlModel: coreMLModel)
tagger.setModels([nlModel], forTagScheme: .nameType)

DON'T: Assume embeddings exist for all languages

Not all languages have word or sentence embeddings available on device.

// WRONG: Force unwrap
let embedding = NLEmbedding.wordEmbedding(for: .japanese)!

// CORRECT: Handle nil
guard let embedding = NLEmbedding.wordEmbedding(for: .japanese) else {
    // Embedding not available for this language
    return
}

DON'T: Create a new tagger per token

Creating and configuring a tagger is expensive. Reuse it for the same text.

// WRONG: New tagger per word
for word in words {
    let tagger = NLTagger(tagSchemes: [.lexicalClass])
    tagger.string = word
}

// CORRECT: Set string once, enumerate
let tagger = NLTagger(tagSchemes: [.lexicalClass])
tagger.string = fullText
tagger.enumerateTags(in: fullText.startIndex..<fullText.endIndex,
                     unit: .word, scheme: .lexicalClass, options: []) { tag, range in
    return true
}

DON'T: Ignore language hints for short text

Language detection on short strings (under ~20 characters) is unreliable. Set constraints or hints to improve accuracy.

// WRONG: Detect language of a single word
let lang = NLLanguageRecognizer.dominantLanguage(for: "chat")  // French or English?

// CORRECT: Provide context
let recognizer = NLLanguageRecognizer()
recognizer.languageHints = [.english: 0.8, .french: 0.2]
recognizer.processString("chat")

Review Checklist

NLTokenizer and NLTagger instances used from a single thread
Tagger created once per text, not per token
Language detection uses constraints/hints for short text
NLEmbedding availability checked before use (returns nil if unavailable)
Translation LanguageAvailability checked before attempting translation
.translationTask() used within a SwiftUI view hierarchy
Batch translation uses clientIdentifier to match responses to requests
Sentiment scores handled as optional (may return nil for unsupported languages)
.joinNames option used with NER to keep multi-word names together
Custom ML models loaded via NLModel, not raw Core ML

References

Extended patterns (custom models, contextual embeddings, gazetteers): references/translation-patterns.md
Natural Language framework
NLTokenizer
NLTagger
NLEmbedding
NLLanguageRecognizer
Translation framework
TranslationSession
LanguageAvailability

Weekly Installs

333

Repository

dpearson2699/sw…s-skills

GitHub Stars

269

First Seen

Mar 8, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

codex330

opencode327

github-copilot327

amp327

cline327

kimi-cli327

Novel Writer 小说创作工作流指南：7步系统化方法，AI辅助写作与质量分析

942 周安装

iOS Swift NaturalLanguage 与 Translation 框架：文本分析与语言翻译开发指南

🇨🇳中文介绍

NaturalLanguage + Translation

目录

设置

相关 Skills

分词

分词单位

使用属性枚举

语言识别

词性标注

常用标注方案

命名实体识别

情感分析

文本嵌入

翻译

系统翻译叠加层

编程式翻译

批量翻译

检查语言可用性

常见错误

错误：跨线程共享 NLTagger/NLTokenizer

错误：混淆 NaturalLanguage 与 Core ML

错误：假设所有语言都有可用的嵌入向量

错误：为每个标记创建新的标注器

错误：忽略短文本的语言提示

审查清单

参考资料

🇺🇸English

NaturalLanguage + Translation

Contents

Setup

Tokenization

Token Units

Enumerating with Attributes

Language Identification

Part-of-Speech Tagging

Common Tag Schemes

Named Entity Recognition

Sentiment Analysis

Text Embeddings

Translation

System Translation Overlay

Programmatic Translation

Batch Translation

Checking Language Availability

Common Mistakes

DON'T: Share NLTagger/NLTokenizer across threads

DON'T: Confuse NaturalLanguage with Core ML

DON'T: Assume embeddings exist for all languages

DON'T: Create a new tagger per token

DON'T: Ignore language hints for short text

Review Checklist

References

最新 Skills