博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
结巴分词
阅读量:7221 次
发布时间:2019-06-29

本文共 984 字,大约阅读时间需要 3 分钟。

hot3.png

结巴分词有多种语言实现的版本,从github的star数量等方面来看,python版本应是最早的一个。 另外,它也具有词性标注等功能。

python版本地址:

pyhton2.7安装jieba:

sudo pip install jieba

官方的一个使用示例:

#encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print "Full Mode:", "/ ".join(seg_list)  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print "Default Mode:", "/ ".join(seg_list)  # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式print ", ".join(seg_list)seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式print ", ".join(seg_list)

运行结果:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

采用的算法:

http://site.douban.com/146782/widget/notes/15468638/note/320822246/给出:
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

代码分析:

转载于:https://my.oschina.net/letiantian/blog/323744

你可能感兴趣的文章
C语言编程写的一个http下载程序(王德仙)2012-04-08
查看>>
CCF201409-3 字符串匹配(100分)
查看>>
UVALive2203 UVa10042 Smith Numbers【质因数分解+素数判定+数位之和】
查看>>
Project Euler Problem 9: Special Pythagorean triplet
查看>>
HDU5701 中位数计数【中位数】
查看>>
Python 深浅拷贝 (Shallow copy and Deep copy in Python)
查看>>
Axure
查看>>
屏幕截取工具
查看>>
C语言第七次作业---要死了----
查看>>
Jquery事件绑定冲突
查看>>
偶现bug如何处理?
查看>>
yum命令简介
查看>>
【Udacity】朴素贝叶斯
查看>>
看漫画,学 Redux
查看>>
Spark Streaming揭秘 Day19 架构设计和运行机制
查看>>
【转载】WinCE OAL中的电源管理函数
查看>>
【iOS】Objective-C简约而不简单的单例模式
查看>>
Java实现扫码二维码登录
查看>>
python之字符串的操作和使用
查看>>
eclipse搭建ssm框架
查看>>