com.hankcs.hanlp
类 HanLP

java.lang.Object
  继承者 com.hankcs.hanlp.HanLP

public class HanLP
extends Object

HanLP: Han Language Processing
汉语言处理包
常用接口工具类

作者:
hankcs

嵌套类摘要
static class HanLP.Config
          库的全局配置,既可以用代码修改,也可以通过hanlp.properties配置(按照 变量名=值 的形式)
 
方法摘要
static String convertToPinyinFirstCharString(String text, String separator, boolean remainNone)
          转化为拼音(首字母)
static List<Pinyin> convertToPinyinList(String text)
          转化为拼音
static String convertToPinyinString(String text, String separator, boolean remainNone)
          转化为拼音
static String convertToSimplifiedChinese(String traditionalChineseString)
          简转繁
static String convertToTraditionalChinese(String simplifiedChineseString)
          繁转简
static List<String> extractKeyword(String document, int size)
          提取关键词
static List<String> extractPhrase(String text, int size)
          提取短语
static List<String> extractSummary(String document, int size)
          自动摘要
static Segment newSegment()
          创建一个分词器
这是一个工厂方法
与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器
static CoNLLSentence parseDependency(String sentence)
          依存文法分析
static List<Term> segment(String text)
          分词
 
从类 java.lang.Object 继承的方法
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

方法详细信息

convertToSimplifiedChinese

public static String convertToSimplifiedChinese(String traditionalChineseString)
简转繁

参数:
traditionalChineseString - 繁体中文
返回:
简体中文

convertToTraditionalChinese

public static String convertToTraditionalChinese(String simplifiedChineseString)
繁转简

参数:
simplifiedChineseString - 简体中文
返回:
繁体中文

convertToPinyinString

public static String convertToPinyinString(String text,
                                           String separator,
                                           boolean remainNone)
转化为拼音

参数:
text - 文本
separator - 分隔符
remainNone - 有些字没有拼音(如标点),是否保留它们(用none表示)
返回:
一个字符串,由[拼音][分隔符][拼音]构成

convertToPinyinList

public static List<Pinyin> convertToPinyinList(String text)
转化为拼音

参数:
text - 待解析的文本
返回:
一个拼音列表

convertToPinyinFirstCharString

public static String convertToPinyinFirstCharString(String text,
                                                    String separator,
                                                    boolean remainNone)
转化为拼音(首字母)

参数:
text - 文本
separator - 分隔符
remainNone - 有些字没有拼音(如标点),是否保留它们(用none表示)
返回:
一个字符串,由[首字母][分隔符][首字母]构成

segment

public static List<Term> segment(String text)
分词

参数:
text - 文本
返回:
切分后的单词

newSegment

public static Segment newSegment()
创建一个分词器
这是一个工厂方法
与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器

返回:
一个分词器

parseDependency

public static CoNLLSentence parseDependency(String sentence)
依存文法分析

参数:
sentence - 待分析的句子
返回:
CoNLL格式的依存关系树

extractPhrase

public static List<String> extractPhrase(String text,
                                         int size)
提取短语

参数:
text - 文本
size - 需要多少个短语
返回:
一个短语列表,大小 <= size

extractKeyword

public static List<String> extractKeyword(String document,
                                          int size)
提取关键词

参数:
document - 文档内容
size - 希望提取几个关键词
返回:
一个列表

extractSummary

public static List<String> extractSummary(String document,
                                          int size)
自动摘要

参数:
document - 目标文档
size - 需要的关键句的个数
返回:
关键句列表


Copyright © 2014–2015 码农场. All rights reserved.