com.hankcs.hanlp.corpus.dictionary
类 DictionaryMaker

java.lang.Object
  继承者 com.hankcs.hanlp.corpus.dictionary.DictionaryMaker
所有已实现的接口:
ISaveAble

public class DictionaryMaker
extends Object
implements ISaveAble

一个通用的词典制作工具,词条格式:词 标签 频次

作者:
hankcs

嵌套类摘要
static interface DictionaryMaker.Filter
           
 
构造方法摘要
DictionaryMaker()
           
 
方法摘要
 void add(Item item)
          插入条目
 void add(IWord word)
          向词典中加入一个词语
 void add(String param)
           
 void add(String value, String label)
           
 void addAll(List<Item> itemList)
          插入全部条目
 void addAllNotCombine(List<Item> itemList)
          插入新条目,不执行合并
 void addNotCombine(Item item)
          插入条目,但是不合并,如果已有则忽略
static DictionaryMaker combine(String[] pathArray)
          合并多部词典
static DictionaryMaker combine(String pathA, String pathB)
          合并两部词典
static DictionaryMaker combineWhenNotInclude(String[] pathArray)
          合并,只补充除第一个词典外其他词典的新词
static DictionaryMaker combineWithNormalization(String[] pathArray)
          对除第一个之外的词典执行标准化,并且合并
 Set<Map.Entry<String,Item>> entrySet()
          浏览所有词条
 Item get(IWord word)
           
 Item get(String key)
           
 Set<String> keySet()
           
 TreeSet<String> labelSet()
           
static DictionaryMaker load(String path)
          从磁盘加载
static List<Item> loadAsItemList(String path)
          读取所有条目
static List<Item> normalizeFrequency(List<Item> itemList)
          调整频次,按排序后的次序给定频次
 boolean saveTxtTo(String path)
          将自己以文本文档的方式保存到磁盘
 boolean saveTxtTo(String path, DictionaryMaker.Filter filter)
          允许保存之前对其做一些调整
 String toString()
           
 
从类 java.lang.Object 继承的方法
clone, equals, finalize, getClass, hashCode, notify, notifyAll, wait, wait, wait
 

构造方法详细信息

DictionaryMaker

public DictionaryMaker()
方法详细信息

add

public void add(IWord word)
向词典中加入一个词语

参数:
word - 词语

add

public void add(String value,
                String label)

get

public Item get(String key)

get

public Item get(IWord word)

labelSet

public TreeSet<String> labelSet()

loadAsItemList

public static List<Item> loadAsItemList(String path)
读取所有条目

参数:
path -
返回:

load

public static DictionaryMaker load(String path)
从磁盘加载

参数:
path -
返回:

addAll

public void addAll(List<Item> itemList)
插入全部条目

参数:
itemList -

addAllNotCombine

public void addAllNotCombine(List<Item> itemList)
插入新条目,不执行合并

参数:
itemList -

add

public void add(Item item)
插入条目

参数:
item -

entrySet

public Set<Map.Entry<String,Item>> entrySet()
浏览所有词条

返回:

keySet

public Set<String> keySet()

addNotCombine

public void addNotCombine(Item item)
插入条目,但是不合并,如果已有则忽略

参数:
item -

combine

public static DictionaryMaker combine(String pathA,
                                      String pathB)
合并两部词典

参数:
pathA -
pathB -
返回:

combine

public static DictionaryMaker combine(String[] pathArray)
合并多部词典

参数:
pathArray -
返回:

combineWithNormalization

public static DictionaryMaker combineWithNormalization(String[] pathArray)
对除第一个之外的词典执行标准化,并且合并

参数:
pathArray -
返回:

combineWhenNotInclude

public static DictionaryMaker combineWhenNotInclude(String[] pathArray)
合并,只补充除第一个词典外其他词典的新词

参数:
pathArray -
返回:

toString

public String toString()
覆盖:
Object 中的 toString

saveTxtTo

public boolean saveTxtTo(String path)
从接口 ISaveAble 复制的描述
将自己以文本文档的方式保存到磁盘

指定者:
接口 ISaveAble 中的 saveTxtTo
参数:
path - 保存位置,包含文件名,不一定包含后缀
返回:
是否成功

add

public void add(String param)

saveTxtTo

public boolean saveTxtTo(String path,
                         DictionaryMaker.Filter filter)
允许保存之前对其做一些调整

参数:
path -
filter -
返回:

normalizeFrequency

public static List<Item> normalizeFrequency(List<Item> itemList)
调整频次,按排序后的次序给定频次

参数:
itemList -
返回:
处理后的列表


Copyright © 2014–2015 码农场. All rights reserved.