|
||||||||||
| 上一个 下一个 | 框架 无框架 | |||||||||
| com.hankcs.hanlp 中 Segment 的使用 |
|---|
| 返回 Segment 的 com.hankcs.hanlp 中的方法 | |
|---|---|
static Segment |
HanLP.newSegment()
创建一个分词器 这是一个工厂方法 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 |
| com.hankcs.hanlp.seg 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg 中 Segment 的子类 | |
|---|---|
class |
CharacterBasedGenerativeModelSegment
基于字构词的生成式模型分词器基类 |
class |
DictionaryBasedSegment
基于词典的机械分词器基类 |
class |
WordBasedGenerativeModelSegment
基于词语NGram模型的分词器基类 |
| 返回 Segment 的 com.hankcs.hanlp.seg 中的方法 | |
|---|---|
Segment |
Segment.enableAllNamedEntityRecognize(boolean enable)
是否启用所有的命名实体识别 |
Segment |
Segment.enableCustomDictionary(boolean enable)
是否启用用户词典 |
Segment |
Segment.enableIndexMode(boolean enable)
设为索引模式 |
Segment |
Segment.enableJapaneseNameRecognize(boolean enable)
是否启用日本人名识别 |
Segment |
Segment.enableMultithreading(boolean enable)
开启多线程 |
Segment |
Segment.enableMultithreading(int threadNumber)
开启多线程 |
Segment |
Segment.enableNameRecognize(boolean enable)
开启人名识别 |
Segment |
Segment.enableNumberQuantifierRecognize(boolean enable)
是否启用数词和数量词识别 即[二, 十, 一] => [二十一],[十, 九, 元] => [十九元] |
Segment |
Segment.enableOffset(boolean enable)
是否启用偏移量计算(开启后Term.offset才会被计算) |
Segment |
Segment.enableOrganizationRecognize(boolean enable)
开启机构名识别 |
Segment |
Segment.enablePartOfSpeechTagging(boolean enable)
开启词性标注 |
Segment |
DictionaryBasedSegment.enablePartOfSpeechTagging(boolean enable)
开启数词和英文识别(与标准意义上的词性标注不同,只是借用这个配置方法,不是真的开启了词性标注。 |
Segment |
Segment.enablePlaceRecognize(boolean enable)
开启地名识别 |
Segment |
Segment.enableTranslatedNameRecognize(boolean enable)
是否启用音译人名识别 |
| com.hankcs.hanlp.seg.common.wrapper 中 Segment 的使用 |
|---|
| 参数类型为 Segment 的 com.hankcs.hanlp.seg.common.wrapper 中的构造方法 | |
|---|---|
SegmentWrapper(BufferedReader br,
Segment segment)
|
|
| com.hankcs.hanlp.seg.CRF 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.CRF 中 Segment 的子类 | |
|---|---|
class |
CRFSegment
基于CRF的分词器 |
| 返回 Segment 的 com.hankcs.hanlp.seg.CRF 中的方法 | |
|---|---|
Segment |
CRFSegment.enableNumberQuantifierRecognize(boolean enable)
|
| com.hankcs.hanlp.seg.Dijkstra 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.Dijkstra 中 Segment 的子类 | |
|---|---|
class |
DijkstraSegment
最短路径分词 |
| com.hankcs.hanlp.seg.HMM 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.HMM 中 Segment 的子类 | |
|---|---|
class |
HMMSegment
基于2阶HMM(A Second-Order Hidden Markov Model, TriGram3阶文法模型)+ BMES序列标注的分词器 |
| com.hankcs.hanlp.seg.NShort 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.NShort 中 Segment 的子类 | |
|---|---|
class |
NShortSegment
N最短分词器 |
| com.hankcs.hanlp.seg.Other 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.Other 中 Segment 的子类 | |
|---|---|
class |
AhoCorasickDoubleArrayTrieSegment
使用AhoCorasickDoubleArrayTrie实现的最长分词器 需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie |
class |
DoubleArrayTrieSegment
使用DoubleArrayTrie实现的最长分词器 |
| 返回 Segment 的 com.hankcs.hanlp.seg.Other 中的方法 | |
|---|---|
Segment |
AhoCorasickDoubleArrayTrieSegment.enableCustomDictionary(boolean enable)
|
| com.hankcs.hanlp.seg.Viterbi 中 Segment 的使用 |
|---|
| com.hankcs.hanlp.seg.Viterbi 中 Segment 的子类 | |
|---|---|
class |
ViterbiSegment
Viterbi分词器 也是最短路分词,最短路求解采用Viterbi算法 |
| com.hankcs.hanlp.tokenizer 中 Segment 的使用 |
|---|
| 声明为 Segment 的 com.hankcs.hanlp.tokenizer 中的字段 | |
|---|---|
static Segment |
TraditionalChineseTokenizer.SEGMENT
预置分词器 |
static Segment |
StandardTokenizer.SEGMENT
预置分词器 |
static Segment |
SpeedTokenizer.SEGMENT
预置分词器 |
static Segment |
NLPTokenizer.SEGMENT
预置分词器 |
static Segment |
IndexTokenizer.SEGMENT
预置分词器 |
static Segment |
BasicTokenizer.SEGMENT
预置分词器 |
|
||||||||||
| 上一个 下一个 | 框架 无框架 | |||||||||