隨著信息技術(shù)的發(fā)展,越來越多的社會(huì)關(guān)系數(shù)據(jù)被收集。如果能夠有效 地對(duì)它們進(jìn)行分析,必將加深人們對(duì)社會(huì)學(xué)的理解,促進(jìn)社會(huì)學(xué)的發(fā)展。但是數(shù)據(jù)量的增大同時(shí)對(duì)分析技術(shù)提出了巨大的挑戰(zhàn)。如今社會(huì)網(wǎng)絡(luò)的規(guī)模早已超出了原有分析手段的處理能力,必須借助更為有效的工具才能完成分析任務(wù)。數(shù)據(jù)挖掘作為一種幫助人們從海量數(shù)據(jù)中發(fā)現(xiàn)潛在有用的知識(shí)的工具,在很多領(lǐng)域發(fā)揮了重要的作用。社會(huì)網(wǎng)絡(luò)分析又稱為鏈接挖掘,是指用數(shù)據(jù)挖掘的方法處理社會(huì)網(wǎng)絡(luò)中的關(guān)系數(shù)據(jù)。
數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。隨著人工智能技術(shù)在專家咨詢、語言處理、娛樂游戲等模式識(shí)別領(lǐng)域的應(yīng)用日益廣泛。從選取專業(yè)學(xué)習(xí)、研究方向的實(shí)際出發(fā),提出了將數(shù)據(jù)挖掘應(yīng)用于輔助選取專業(yè)學(xué)習(xí)、研究方向的數(shù)據(jù)挖掘技術(shù)流程模型。
? 數(shù)據(jù)挖掘技術(shù)是一個(gè)多步驟、可能需多次反復(fù)的處理過程。主要包括以下幾步:準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定數(shù)據(jù)挖掘的目標(biāo)、確定知識(shí)發(fā)現(xiàn)算法、數(shù)據(jù)挖掘(Data?Mining)、模式解釋、知識(shí)評(píng)價(jià)。其中最重要的一個(gè)步驟是數(shù)據(jù)挖掘,它是利用某些特定的知識(shí)發(fā)現(xiàn)算法,在可接受的運(yùn)算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識(shí)。
文本挖掘,是一個(gè)對(duì)具有豐富語義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過程.對(duì)其進(jìn)行深入的研究勢(shì)必將極大地提高人們從海量的文本數(shù)據(jù)中提取信息的能力,具有很高的商業(yè)價(jià)值。
靈玖軟件NLPIR大數(shù)據(jù)語義智能分析平臺(tái)針對(duì)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時(shí)十八年,服務(wù)了全球四十萬家機(jī)構(gòu)用戶,是大時(shí)代語義智能分析的一大利器。
NLPIR大數(shù)據(jù)語義智能分析平臺(tái)平臺(tái)針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。
NLPIR能夠全方位多角度滿足應(yīng)用者對(duì)大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等。
21世紀(jì)是一個(gè)信息時(shí)代,信息來源渠道和信息產(chǎn)生的方式越來越多,及時(shí)、高效、低耗地處理信息資源,為國(guó)民經(jīng)濟(jì)、社會(huì)文明、科學(xué)技術(shù)以及國(guó)防建設(shè)和發(fā)展服務(wù),就必須在信息的獲取、加工處理、傳輸、存取、決策和利用方面尋求新的突破性的信息處理技術(shù)。
NLPIR大語義智能中文信息處理技術(shù)的出現(xiàn)已成為中文信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的提供了重要的幫助,在互聯(lián)網(wǎng)日益成長(zhǎng)的今天,NLPIR大數(shù)據(jù)語義智能中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新。