? 【中文分詞】分享14款頂尖的中文分詞工具軟件,附下載地址-【元標seo】

【中文分詞】分享14款頂尖的中文分詞工具軟件,附下載地址

作者: 杭州網站優化公司 分類: seo分詞技術 發布時間: 2018-05-10 18:03 0

1、IKAnalyzer

  IKAnalyzer是一個開源的,基于java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經推出 了3個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發展為 面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優化實現。

  IKAnalyzer3.0特性:

  采用了特有的“正向迭代最細粒度切分算法“,具有60萬字/秒的高速處理能力。

  采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數字(日期,常用中文數量詞,羅馬數字,科學計數法),中文詞匯(姓名、地名處理)等分詞處理。

  優化的詞典存儲,更小的內存占用。支持用戶詞典擴展定義

  針對Lucene全文檢索優化的查詢分析器IKQueryParser(作者吐血推薦);采用歧義分析算法優化查詢關鍵字的搜索排列組合,能極大的提高Lucene檢索的命中率。

  授權協議:LGPL

  開發語言:Java 在線查看 IKAnalyzer 源碼 ?

  操作系統:跨平臺

  收錄時間:2008年12月03日 (國產軟件)

  下載地址:http://www.oschina.net/p/ikanalyzer 或 http://code.google.com/p/ik-analyzer/

2、盤古分詞

  盤古分詞是一個基于 .net framework 的中英文分詞組件,提供lucene(。net 版本) 和HubbleDotNet的接口。

  高效:Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒

  準確:盤古分詞采用字典和統計結合的分詞算法,分詞準確率較高。

  功能:盤古分詞提供中文人名識別,簡繁混合分詞,多元分詞,英文詞根化,強制一元分詞,詞頻優先分詞,停用詞過濾,英文專名提取等一系列功能。

  授權協議:Apache

  開發語言:C#.NET

  操作系統:Windows

  收錄時間:2010年12月29日

  下載地址:http://www.oschina.net/p/pangu 或:http://pangusegment.codeplex.com/

3、Paoding

  庖丁中文分詞庫是一個使用Java開發的,可結合到Lucene應用中的,為互聯網、企業內部網使用的中文搜索引擎分詞組件。Paoding填補了國內中文分詞方面開源組件的空白,致力于此并希翼成為互聯網網站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗。

  Paoding's Knives 中文分詞具有極高效率和高擴展性。引入隱喻,采用完全的面向對象設計,構思先進。

  高效率:在PIII 1G內存個人機器上,1秒可準確分詞100萬漢字。

  采用基于不限制個數的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。

  能夠對未知的詞匯進行合理解析

  授權協議:Apache

  開發語言:Java

  操作系統:跨平臺

  收錄時間:2008年09月07日 (國產軟件)

  下載地址:http://www.oschina.net/p/paoding 或http://code.google.com/p/paoding/

4、FreeICTCLAS

  中科院ICTCLAS最新free開放源代碼,里面有中文分詞算法,大家一起共同學習和研究,對搜索引擎中文分詞方面有很大用處哦

  授權協議:未知

  開發語言:C/C++

  操作系統:Windows

  收錄時間:2010年10月20日 (國產軟件)

  下載地址:http://www.oschina.net/p/freeictclas

5、LibMMSeg

  LibMMSeg 是Coreseek.com為Sphinx全文搜索引擎設計的中文分詞軟件包,其在GPL協議下發行的中文分詞法,采用Chih-Hao Tsai的MMSEG算法。

  您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

  LibMMSeg 采用C++開發,同時支持Linux平臺和Windows平臺,切分速度大約在300K/s(PM-1.2G),截至當前版本(0.7.1)LibMMSeg沒有為速度仔細優化過,進一步的提升切分速度應仍有空間。

  授權協議:未知

  開發語言:C/C++

  操作系統:跨平臺

  收錄時間:2009年05月31日 (國產軟件)

  下載地址 : MMSeg 0.7.3

6、PHPCWS

  PHPCWS 是一款開源的PHP中文分詞擴展,目前僅支持Linux/Unix系統,該項目現在已改名為HTTPCWS,此項目不再繼續維護。

  PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進行初次分詞處理,再使用自行編寫的“逆向最大匹配算法”對分詞和進行詞語合并處理,并增加標點符號過濾功能,得出分詞結果。

  ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中國科學院計算技術研究所在多年研究工作積累的基礎上,基于多層隱馬模型研制出的漢語詞法分析系統,主要功能包括中文分詞;詞性標注;命 名實體識別;新詞識別;同時支持用戶詞典。ICTCLAS經過五年精心打造,內核升級6次,目前已經升級到了ICTCLAS3.0,分詞精度 98.45%,各種詞典數據壓縮后不到3M。ICTCLAS在國內973專家組組織的評測中活動獲得了第一名,在第一屆國際中文處理研究機構SigHan 組織的評測中都獲得了多項第一名,是當前世界上最好的漢語詞法分析器。

  授權協議:BSD

  開發語言:PHP

  操作系統:跨平臺

  收錄時間:2009年03月19日 (國產軟件)

  下載地址:http://www.oschina.net/p/phpcws

7、HTTPCWS

  HTTPCWS是一款Linux下的基于HTTP協議的開源中文分詞系統,采用BSD協議。

  這個分詞系統是對中國科學院計算技術研究所免費提供的ICTCLAS 3.0共享版分詞后的結果,再采用逆向最大匹配算法,根據作者自己補充的一個9萬條詞語的自定義詞庫,對ICTCLAS分詞結果進行合并處理,輸出最終分詞結果。目前只支持GBK編碼。

  經過測試,局域網內 HTTPCWS 接口中文分詞平均處理速度(Wait時間):0.001秒,每秒可處理5000~20000次請求。

  授權協議:BSD

  開發語言:C/C++

  操作系統:Linux

  收錄時間:2009年08月11日 (國產軟件)

  下載地址:http://www.oschina.net/p/httpcws

8、imdict-chinese-analyzer

  imdict-chinese-analyzer 是imdict智能詞典的智能中文分詞模塊,算法基于隱馬爾科夫模型(Hidden Markov Model, HMM),是中國科學院計算技術研究所的ictclas中 文分詞程序的重新實現(基于Java),可以直接為lucene搜索引擎提供簡體中文分詞支持。

  授權協議:Apache

  開發語言:Java

  操作系統:跨平臺

  收錄時間:2010年03月02日 (國產軟件)

  下載地址:http://www.oschina.net/p/imdict-chinese-analyzer

9、mmseg4j

  mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/)實現的中文分詞器,并實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

  MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞算法。

  授權協議:Apache

  開發語言:Java

  操作系統:跨平臺

  收錄時間:2009年09月26日 (國產軟件)

  下載地址:http://www.oschina.net/p/mmseg4j

10、smallseg

  smallseg -- 開源的,基于DFA的輕量級的中文分詞工具包

  特點:可自定義詞典、切割后返回登錄詞列表和未登錄詞列表、有一定的新詞識別能力。

  授權協議:未知

  開發語言:Java Python

  操作系統:跨平臺

  收錄時間:2009年10月15日 (國產軟件)

  下載地址:http://www.oschina.net/p/smallseg

11、CRF

  中文分詞是互聯網應用不可缺少的基礎技術之一,也是其他語音和語言產品必不可少的技術組件。

  自2003年第一屆國際中文分詞評測以來,由字構詞的分詞方法獲得了壓倒性優勢,國內主要通過CRF++開源軟件包來學習該分詞方法,但是CRF++過于復雜的代碼結構,導致了該算法的普及率。

  CRF中文分詞開源版僅僅包含CRF++軟件包中分詞解碼器部分,簡化了CRF++復雜代碼結構,清除了分詞解碼器不需要的代碼,大大提高了分詞解碼器的可讀性和可懂度。同時為了方便學習者可視化跟蹤和調試代碼,在Windows平臺下分別建立了VC6.0和VS2008兩個工程文件,使得VC6.0用戶和VS2008用戶都能輕玩轉中文分詞。

  授權協議:未知

  開發語言:C/C++

  操作系統:Windows

  收錄時間:2010年08月26日 (國產軟件)

  下載地址:http://www.oschina.net/p/crf

12、SCWS

  SCWS 是 Simple Chinese Words Segmentation 的縮寫,即簡易中文分詞系統。

  這是一套基于詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本語素單位,而書寫的時候不像英語會在詞之間用空格分開, 所以如何準確而又快速的分詞一直是中文分詞的攻關難點。

  SCWS 在概念上并無創新成分,采用的是自行采集的詞頻詞典,并輔以一定程度上的專有名稱、人名、地名、數字年代等規則集,經小范圍測試大概準確率在 90% ~ 95% 之間,已能基本滿足一些中小型搜索引擎、關鍵字提取等場合運用。 SCWS 采用純 C 代碼開發,以 Unix-Like OS 為主要平臺環境,提供共享函數庫,方便植入各種現有軟件系統。此外它支持 GBK,UTF-8,BIG5 等漢字編碼,切詞效率高。

  授權協議:未知

  開發語言:PHP

  操作系統:跨平臺

  收錄時間:2010年05月23日 (國產軟件)

  下載地址:http://www.oschina.net/p/scws

13、FudanNLP

  FudanNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。

  授權協議:LGPL

  開發語言:Java

  操作系統:跨平臺

  收錄時間:2010年07月19日 (國產軟件)

  下載地址:http://www.oschina.net/p/fudannlp

14、ictclas4j

  ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目,簡化了原分詞程序的復雜度,旨在為廣大的中文分詞愛好者一個更好的學習機會。

  授權協議:Apache

  開發語言:Java

  操作系統:跨平臺

  收錄時間:2010年10月20日 (國產軟件)

  下載地址: http://www.oschina.net/p/ictclas4j

轉載請注明出處:http://www./seojishu/fenci/999.html