隨著科學(xué)技術(shù)的發(fā)展,中文信息處理已經(jīng)深入到了社會生活的各方面。廣泛的應(yīng)用對中文信息處理技術(shù)也提出了較高的要求。
中文信息處理是中文(包括漢語和少數(shù)民族語言)語言學(xué)和信息技術(shù)的融合,它是一門用計(jì)算機(jī)對漢語(包括口語和書面語)進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工的科學(xué)。中文信息處理與語言學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、數(shù)學(xué)、控制論、信息論、聲學(xué)、自動化技術(shù)等多種學(xué)科相聯(lián)系,是自然語言信息處理的一個分支,需要以大量的語言知識、背景知識為依據(jù),對中文信息的人腦處理過程進(jìn)行模擬。其中,“中文”是指中國通用的所有語言種類,包括漢語及其他少數(shù)民族的語言:但一般都是指漢語?!靶畔ⅰ笔侵改芡ㄟ^視覺、聽覺、嗅覺、味覺、觸覺等器官或儀器獲取,并有一定交際功能的東西,“信息”是不確定性的減少,是負(fù)熵。所謂“處理”,是指用計(jì)算機(jī)對信息進(jìn)行各種加工,主要的是圖像信息和語言信息的識別、模擬、分析、轉(zhuǎn)換和傳輸。
另外,現(xiàn)有的自然語言處理理論和技術(shù)大多都是以英語為研究對象語言發(fā)展起來的。而漢語無論在語音、文字表示,還是在詞匯、語法、語義及其語用等各個層面上,都與之存在著很大的差異。這使得無法直接套用西方已成熟的理論和技術(shù),漢語無疑是計(jì)算模型比較不發(fā)達(dá)的語言。這對從事中文信息處理的研究者來說是一個巨大的挑戰(zhàn)和壓力。
靈玖軟件NLPIR大語義智能分析平臺針對中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務(wù)了全球四十萬家機(jī)構(gòu)用戶,是大時代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,C,C#等各類開發(fā)語言使用。
NLPIR能夠全方位多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等。
隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實(shí)時機(jī)器翻譯、大規(guī)模中文文本處理、跨平臺中西文自動識別轉(zhuǎn)換、泛中文語義理解、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破。NLPIR大語義智能中文信息處理技術(shù)已成為中文信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的提供了重要的幫助,在互聯(lián)網(wǎng)日益成長的今天,NLPIR大語義智能中文信息處理技術(shù)將會更加成熟并創(chuàng)新。