| 限定符和类型 | 方法和说明 |
|---|---|
static Segment |
HanLP.newSegment()
创建一个分词器
这是一个工厂方法 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 |
| 限定符和类型 | 方法和说明 |
|---|---|
Segment |
IDependencyParser.getSegment()
获取Parser使用的分词器
|
Segment |
AbstractDependencyParser.getSegment() |
| 限定符和类型 | 方法和说明 |
|---|---|
IDependencyParser |
IDependencyParser.setSegment(Segment segment)
设置Parser使用的分词器
|
IDependencyParser |
AbstractDependencyParser.setSegment(Segment segment) |
| 限定符和类型 | 类和说明 |
|---|---|
class |
CharacterBasedGenerativeModelSegment
基于字构词的生成式模型分词器基类
|
class |
DictionaryBasedSegment
基于词典的机械分词器基类
|
class |
WordBasedGenerativeModelSegment
基于词语NGram模型的分词器基类
|
| 限定符和类型 | 方法和说明 |
|---|---|
Segment |
Segment.enableAllNamedEntityRecognize(boolean enable)
是否启用所有的命名实体识别
|
Segment |
Segment.enableCustomDictionary(boolean enable)
是否启用用户词典
|
Segment |
Segment.enableIndexMode(boolean enable)
设为索引模式
|
Segment |
Segment.enableJapaneseNameRecognize(boolean enable)
是否启用日本人名识别
|
Segment |
Segment.enableMultithreading(boolean enable)
开启多线程
|
Segment |
Segment.enableMultithreading(int threadNumber)
开启多线程
|
Segment |
Segment.enableNameRecognize(boolean enable)
开启人名识别
|
Segment |
Segment.enableNumberQuantifierRecognize(boolean enable)
是否启用数词和数量词识别
即[二, 十, 一] => [二十一],[十, 九, 元] => [十九元] |
Segment |
Segment.enableOffset(boolean enable)
是否启用偏移量计算(开启后Term.offset才会被计算)
|
Segment |
Segment.enableOrganizationRecognize(boolean enable)
开启机构名识别
|
Segment |
Segment.enablePartOfSpeechTagging(boolean enable)
开启词性标注
|
Segment |
DictionaryBasedSegment.enablePartOfSpeechTagging(boolean enable)
开启数词和英文识别(与标准意义上的词性标注不同,只是借用这个配置方法,不是真的开启了词性标注。
|
Segment |
Segment.enablePlaceRecognize(boolean enable)
开启地名识别
|
Segment |
Segment.enableTranslatedNameRecognize(boolean enable)
是否启用音译人名识别
|
| 构造器和说明 |
|---|
SegmentWrapper(BufferedReader br,
Segment segment) |
| 限定符和类型 | 类和说明 |
|---|---|
class |
CRFSegment
基于CRF的分词器
|
| 限定符和类型 | 方法和说明 |
|---|---|
Segment |
CRFSegment.enableNumberQuantifierRecognize(boolean enable) |
| 限定符和类型 | 类和说明 |
|---|---|
class |
DijkstraSegment
最短路径分词
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
HMMSegment
基于2阶HMM(A Second-Order Hidden Markov Model, TriGram3阶文法模型)+ BMES序列标注的分词器
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
NShortSegment
N最短分词器
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
AhoCorasickDoubleArrayTrieSegment
使用AhoCorasickDoubleArrayTrie实现的最长分词器
需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie |
class |
DoubleArrayTrieSegment
使用DoubleArrayTrie实现的最长分词器
|
| 限定符和类型 | 方法和说明 |
|---|---|
Segment |
AhoCorasickDoubleArrayTrieSegment.enableCustomDictionary(boolean enable) |
| 限定符和类型 | 类和说明 |
|---|---|
class |
ViterbiSegment
Viterbi分词器
也是最短路分词,最短路求解采用Viterbi算法 |
| 限定符和类型 | 方法和说明 |
|---|---|
KeywordExtractor |
KeywordExtractor.setSegment(Segment segment)
设置关键词提取器使用的分词器
|
| 限定符和类型 | 字段和说明 |
|---|---|
static Segment |
URLTokenizer.SEGMENT
预置分词器
|
static Segment |
TraditionalChineseTokenizer.SEGMENT
预置分词器
|
static Segment |
StandardTokenizer.SEGMENT
预置分词器
|
static Segment |
SpeedTokenizer.SEGMENT
预置分词器
|
static Segment |
NLPTokenizer.SEGMENT
预置分词器
|
static Segment |
IndexTokenizer.SEGMENT
预置分词器
|
static Segment |
BasicTokenizer.SEGMENT
预置分词器
|
Copyright © 2014–2017 码农场. All rights reserved.