ictclas軟件介紹
中國科學院計算技術研究所在多年研究工作積累的基礎上,研制出了漢語詞法分析系統(tǒng)ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能包括中文分詞;詞性標注;命名實體識別;新詞識別;同時支持用戶詞典。我們先后精心打造五年,內(nèi)核升級7次,目前已經(jīng)升級到了ICTCLAS2009用戶詞典接口擴展用戶可以動態(tài)增加、刪除用戶詞典中的詞,調(diào)節(jié)分詞的效果。提高了用戶詞典使用的靈活性。
ICTCLAS詞法分析系統(tǒng),從2009年開始,為了和以前工作進行大的區(qū)隔,并推廣NLPIR自然語言處理與信息檢索共享平臺,調(diào)整命名為NLPIR分詞系統(tǒng)。張華平博士先后傾力打造十余年,內(nèi)核升級十余次,先后獲得了2010年錢偉長中文信息處理科學技術獎一等獎,2003年國際SIGHAN分詞大賽綜合第一名,2002年國內(nèi)973評測綜合第一名。全球用戶突破30萬,包括中國移動、華為、中搜、3721、NEC、中華商務網(wǎng)、硅谷動力、云南日報等企業(yè),清華大學、新疆大學、華南理工、麻省大學等機構:同時,ICTCLAS廣泛地被《科學時報》、《人民日報》海外版、《科技日報》等多家媒體報道。您可以訪問Google進一步了解ICTCLAS的應用情況。
ictclas軟件功能
1.指紋提取
根據(jù)文章的內(nèi)容,結構,詞語間的關系,分析出能夠表示該文章的語義指紋,使用數(shù)字序列表示。
2.分詞粒度可調(diào)
可以控制分詞結果的粒度。共享版本提供兩種分詞粒度,標準粒度和粗粒度,滿足不同用戶的需求。
3.用戶詞典接口擴展
用戶可以動態(tài)增加、刪除用戶詞典中的詞,調(diào)節(jié)分詞的效果。提高了用戶詞典使用的靈活性。
4.詞性標注功能加強
多種標注級的選擇,系統(tǒng)可供選擇的標注級有:計算所一級標注級,計算所二級標注集,北大一級標注集,北大二級標注集。
5.關鍵詞提取
自動抽取出能很好地代表文檔主題的若干個詞或短語。關鍵詞抽取技術廣泛應用于信息檢索、文本分類/聚類、信息過濾、文檔摘要等各種智能文本信息處理領域,具有很好的應用價值。
6.新詞發(fā)現(xiàn)與自適應分詞功能
從較長的文本內(nèi)容中,基于信息交叉熵自動發(fā)現(xiàn)新特征語言,并自適應測試語料的語言概率分布模型,實現(xiàn)自適應分詞。
ictclas軟件優(yōu)勢
一、國內(nèi)和國際權威的公開評測、三萬客戶的認可
有些公司為了商業(yè)目的,關門自測,自稱準確度99.50%,沒有介紹測試環(huán)境和測試方法,封閉測試或者小規(guī)模的開放測試準確度100%都不足為奇的,ICTCLAS1.0在國內(nèi)973專家組組織的評測中活動獲得了第一名,ICTCLAS2.0在第一屆國際中文處理研究機構SigHan組織的評測中都獲得了多項第一名,具體的參見系統(tǒng)評測部分。這些都是權威機構進行大規(guī)?,F(xiàn)場開放測試的結果,真實可信。
ICTCLAS已經(jīng)向國內(nèi)外的企業(yè)和學術機構頒發(fā)了30,000多份授權,其中包括3721、NEC、中華商務網(wǎng)、硅谷動力、云南日報等企業(yè),新疆大學、清華大學、華南理工、麻省大學;同時,ICTCLAS廣泛地被《科學時報》、《人民日報》海外版、《科技日報》等多家媒體報道。您可以訪問Google進一步了解ICTCLAS的應用情況。
二、綜合性能最優(yōu)
分詞系統(tǒng)能否達到實用性要求主要取決于兩個因素:分詞精度與分析速度,這兩者相互制約,難以平衡。大多數(shù)系統(tǒng)往往陷入“快而不準,準而不快”的窘境。我們研制出了完美PDAT大規(guī)模知識庫管理技術,在高速度與高精度之間取得了重大突破,該技術可以管理百萬級別的詞典知識庫,單機每秒可以查詢100萬詞條,而內(nèi)存消耗不到知識庫大小的1.5倍?;谠摷夹g,ICTCLAS3.0分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當前世界上最好的漢語詞法分析器。
三、統(tǒng)一的語言計算理論框架
漢語分詞牽涉到漢語分詞、未定義詞識別、詞性標注以及語言特例等多個因素,大多數(shù)系統(tǒng)缺乏統(tǒng)一的處理方法,往往采用松散耦合的模塊組合方式,最終模型并不能準確有效地表達千差萬別的語言現(xiàn)象,而ICTCLAS采用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),將漢語詞法分析的所有環(huán)節(jié)都統(tǒng)一到了一個完整的理論框架中,獲得最好的總體效果,相關理論研究發(fā)表在頂級國際會議和雜志上,從理論上和實踐上都證實了該模型的先進性。
四、全方位支持各種環(huán)境下的應用開發(fā)
ICTCLAS全部采用C/C++編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),支持C/C++/C#/Delphi/Java等主流的開發(fā)語言。
五、應需而變,量身定做
所有功能模塊均可拆卸組裝,ICTCLAS有GB2312和BIG5版本,可分別處理目簡繁體中文;支持當前廣泛承認的分詞和詞類標準,包括計算所詞類標注集ICTPOS3.0,北大標準、濱州大學標準、國家語委標準、臺灣“中研院”、香港“城市大學”;用戶可以直接自定義輸出的詞類標準,定義輸出格式;用戶可以根據(jù)自己的需求,進行量身自助式定做適合自己的分詞系統(tǒng)。
ictclas更新日志
1.對部分功能進行了優(yōu)化
2.解了好多不能忍的bug
華軍小編推薦:
放眼望去,互聯(lián)網(wǎng)與本軟件類似的軟件到處都是,如果您用不習慣這個軟件,不妨來試試中國漢語成語字典電子版、易字帖、寫作大詞海2017、語文100分電腦版、作文之星等軟件,希望您能喜歡!
您的評論需要經(jīng)過審核才能顯示
有用
有用
有用