com.hankcs.hanlp.dictionary
类 CustomDictionary

java.lang.Object
  继承者 com.hankcs.hanlp.dictionary.CustomDictionary

public class CustomDictionary
extends Object

用户自定义词典

作者:
He Han

字段摘要
static DoubleArrayTrie<CoreDictionary.Attribute> dat
           
static String[] path
          第一个是主词典,其他是副词典
static BinTrie<CoreDictionary.Attribute> trie
          用于储存用户动态插入词条的二分trie树
 
构造方法摘要
CustomDictionary()
           
 
方法摘要
static boolean add(String word)
          增加新词
static boolean add(String word, String natureWithFrequency)
          往自定义词典中插入一个新词(非覆盖模式)
static LinkedList<Map.Entry<String,CoreDictionary.Attribute>> commonPrefixSearch(char[] chars, int begin)
          前缀查询
static LinkedList<Map.Entry<String,CoreDictionary.Attribute>> commonPrefixSearch(String key)
          前缀查询
static boolean contains(String key)
          词典中是否含有词语
static CoreDictionary.Attribute get(String key)
          查单词
static BaseSearcher getSearcher(char[] charArray)
          获取一个BinTrie的查询工具
static BaseSearcher getSearcher(String text)
           
static BinTrie<CoreDictionary.Attribute> getTrie()
          已过时。 谨慎操作,有可能废弃此接口
static boolean insert(String word)
          以覆盖模式增加新词
static boolean insert(String word, String natureWithFrequency)
          往自定义词典中插入一个新词(覆盖模式)
static boolean load(String path, Nature defaultNature, TreeMap<String,CoreDictionary.Attribute> map)
          加载用户词典(追加)
static void parseText(char[] text, AhoCorasickDoubleArrayTrie.IHit<CoreDictionary.Attribute> processor)
          解析一段文本(目前采用了BinTrie+DAT的混合储存形式,此方法可以统一两个数据结构)
static void remove(String key)
          删除单词
 String toString()
           
 
从类 java.lang.Object 继承的方法
clone, equals, finalize, getClass, hashCode, notify, notifyAll, wait, wait, wait
 

字段详细信息

trie

public static BinTrie<CoreDictionary.Attribute> trie
用于储存用户动态插入词条的二分trie树


dat

public static DoubleArrayTrie<CoreDictionary.Attribute> dat

path

public static final String[] path
第一个是主词典,其他是副词典

构造方法详细信息

CustomDictionary

public CustomDictionary()
方法详细信息

load

public static boolean load(String path,
                           Nature defaultNature,
                           TreeMap<String,CoreDictionary.Attribute> map)
加载用户词典(追加)

参数:
path - 词典路径
defaultNature - 默认词性
返回:

add

public static boolean add(String word,
                          String natureWithFrequency)
往自定义词典中插入一个新词(非覆盖模式)

参数:
word - 新词 如“裸婚”
natureWithFrequency - 词性和其对应的频次,比如“nz 1 v 2”,null时表示“nz 1”
返回:
是否插入成功(失败的原因可能是不覆盖、natureWithFrequency有问题等,后者可以通过调试模式了解原因)

add

public static boolean add(String word)
增加新词

参数:
word -
返回:

insert

public static boolean insert(String word,
                             String natureWithFrequency)
往自定义词典中插入一个新词(覆盖模式)

参数:
word - 新词 如“裸婚”
natureWithFrequency - 词性和其对应的频次,比如“nz 1 v 2”,null时表示“nz 1”。
返回:
是否插入成功(失败的原因可能是natureWithFrequency问题,可以通过调试模式了解原因)

insert

public static boolean insert(String word)
以覆盖模式增加新词

参数:
word -
返回:

get

public static CoreDictionary.Attribute get(String key)
查单词

参数:
key -
返回:

remove

public static void remove(String key)
删除单词

参数:
key -

commonPrefixSearch

public static LinkedList<Map.Entry<String,CoreDictionary.Attribute>> commonPrefixSearch(String key)
前缀查询

参数:
key -
返回:

commonPrefixSearch

public static LinkedList<Map.Entry<String,CoreDictionary.Attribute>> commonPrefixSearch(char[] chars,
                                                                                        int begin)
前缀查询

参数:
chars -
begin -
返回:

getSearcher

public static BaseSearcher getSearcher(String text)

toString

public String toString()
覆盖:
Object 中的 toString

contains

public static boolean contains(String key)
词典中是否含有词语

参数:
key - 词语
返回:
是否包含

getSearcher

public static BaseSearcher getSearcher(char[] charArray)
获取一个BinTrie的查询工具

参数:
charArray - 文本
返回:
查询者

getTrie

public static BinTrie<CoreDictionary.Attribute> getTrie()
已过时。 谨慎操作,有可能废弃此接口

获取词典对应的trie树

返回:

parseText

public static void parseText(char[] text,
                             AhoCorasickDoubleArrayTrie.IHit<CoreDictionary.Attribute> processor)
解析一段文本(目前采用了BinTrie+DAT的混合储存形式,此方法可以统一两个数据结构)

参数:
text - 文本
processor - 处理器


Copyright © 2014–2015 码农场. All rights reserved.