日日夜夜撸啊撸,欧美韩国日本,日本人配种xxxx视频,在线免播放器高清观看

神經網絡文本分類大全11篇

時間:2023-05-31 14:59:15

緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇神經網絡文本分類范文,希望它們能為您的寫作提供參考和啟發。

神經網絡文本分類

篇(1)

文本分類數是據挖掘的一個重要研究領域,國內外的眾多學者已經進行了比較深入的研究,取得了不少研究成果。常見的文本分類技術有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機方法(SVM)、模糊c均值(FCM)算法和等,現在有很多學者把神經網絡的方法應用到分類算法中,在這些分類算法中,神經網絡的文本分類更具有優越的性能。袁飛云利用SOINN自動產生聚類數目和保留數據拓撲結構的兩項能力,尋找更有效的單詞和設計更有效的編碼方式,提出了基于自組織增量神經網絡(SOINN)的碼書產生方法;申明金利用自組織特征映射神經網絡(SOM)以無監督方式進行網絡訓練,具有自組織功能的特點,利用自組織特征映射神經網絡對不同產地金銀花進行分類;彭俊等將不同空氣質量等級下的各空氣指標作為原型模式,通過輸入樣本模式,利用競爭網絡的競爭特點得到勝者,以此得出空氣質量等級;郝曉麗等通過篩選基于輪廓系數的優秀樣木群,來尋找最佳初始聚類中心,并將該改進算法用于構造徑向基函數神經網絡分類器和快速有效地確定隱含層節點徑向基函數中心及函數的寬度,從而提高了分類精度;孫進進利用神經網絡技術中的自組織映射SOM)網絡對我國主要機場進行聚類分析評價,得出我國主要機場分為8層的主要結論;劉艷杰在非監督的自組織映射神經網絡的基礎上進行了一定的改進,構建了有監督的神經網絡分類模型;李楊將神經網絡與群體智能算法、云計算相結合的方法,實現對不同規模農業數據集的分類,提出基于神經網絡分類器的設計與優化方法。而競爭型神經網絡的自組織、自適應學習能力,進一步拓寬了神經網絡在模式分類和識別方面的應用。競爭型神經網絡依靠神經元之間的興奮、協調、抑制或競爭的作用來進行信息處理,可在訓練中無監督自組織學習,通過學習提取數據中的重要特征或內在規律,進而實現分類分析的功能。

1競爭型神經網絡的描述

1.1競爭型網絡的結構

競爭學習網絡的結構如圖1所示,該網絡具有R維輸入和s個輸出,由前饋層和競爭層組成。圖中的llndlstll模塊表示對輸入矢量P和神經元權值矢量w之間的距離取負。該網絡的輸出層是競爭層,圖中的模塊c表示競爭傳遞函數,其輸出矢量由競爭層各神經元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關系。競爭過后只有一個神經元有非零輸出,獲勝的神經元指明輸入屬于哪類(每個原型向量代表一個類)。

1.2競爭型神經網絡的原理

競爭型神經網絡在結構上,既不同于階層型的各層神經元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競爭層構成的兩層網絡。兩層之間各神經元實現雙向全連接,沒有隱含層,有時競爭層各神經元之間還存在橫向連接。在學習方法上,不是以網絡的誤差或能量函數的單調遞減作為算法準則。而是依靠神經元之間的興奮、協調、抑制、競爭的作用來進行信息處理,指導網絡的學習與工作。

網絡在剛開始建立的時候,輸入層和輸出層之間的連接權值已經開始了,如果與競爭層某一神經元對應的矢量子類別屬于線性層某個神經元所對應的目標類別,則這兩個神經元的連接權值為1,否則二者的連接權值為0,這樣的權值矩陣就實現了子類別到目標類別的合并。在建立競爭型網絡時,每類數據占數據總數的百分比是已知的,這也是競爭層神經元歸并到線性層的各個輸出時所依據的比例。

1.3存在的問題

競爭型神經網絡按Kohonen學習規則對獲勝神經元的權值進行調整,通過輸入向量進行神經元權值的調整,因此在模式識別的應用中是很有用的。通過學習,那些最靠近輸入向量的神經元權值向量得到修正,使之更靠近輸入向量,其結果是獲勝的神經元在下一次相似的輸入向量出現時,獲勝的可能性更大;而對于那些與輸入向量相差很遠的神經元權值向量,獲勝的可能性將變得很小。這樣,當經過越來越多的訓練樣本學習后,每一個網絡層中的神經元權值向量很快被調整為最接近某一類輸入向量的值。最終的結果是,如果神經元的數量足夠多,則具有相似輸入向量的各類模式作為輸入向量時,其對應的神經元輸出為1;而對于其他模式的輸入向量,其對應的神經元輸出為0。所以,競爭型神經網絡具有對輸入向量進行學習分類的能力。

例子:以競爭型神經網絡為工具,對下面的數據進行分類:

運用Matlab編程實現,發現網絡的訓練誤差能達到要求,最后也能實現很好的分類效果。運行結果如圖2所示。

有運行結果可以看到,訓練誤差達到要求,分類結果也很合理。

但是在實際應用過程中,我們發現,當對于訓練數據的數據特征十分明顯的時候,本文設計的網絡模型可以對訓練的數據進行合理有效的分類,但是,當訓練數據的特征不太明顯區分的時候,本文設計的訓練模型的分類效果就不是太有優勢,所得到的分類結果就不能達到我們預期的效果。

我們利用競爭型神經網絡對數據樣本進行分類,其中參數設置為學習效率0.1,網絡競爭層有4個神經元,運用Matlab編程實現,發現結果如下:

例子:我們利用本文設計的網絡分類模型進行對數據分類處理:進行分類處理數據的樣本數據如下所示:

通過運行學習發現訓練誤差較大,分類結果也達不到要求。

2改進的方法

2.1問題分析

通過比較分析我們發現,上面的數據樣本沒有明顯的分類特征,所以,以競爭型神經網絡進行分類,其輸入向量僅僅依靠數據本身的固有的特征時不夠的,但我們可以把數據樣本看作是二維數據,假設同符號的特征值為1,不同符號的特征值為2,于是一個新的訓練樣本就確定了,即成為三維數據模型。

2.2改進的算法

第一步:給定數據集X=[X1,X2……,Xi),對網絡進行初始化,隨機給定網絡競爭層與輸入層間的初始權向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競爭層間的連接權值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權矢量)。

第二步:創建競爭型神經網絡,首先根據給定的問題確定訓練樣本的輸入向量,當學習模式樣本本身雜亂無章,沒有明顯的分類特征,網絡對輸入模式的響應呈現震蕩的現象,不足以區分各類模式時,在創建網絡之前,提取訓練樣本的特征值,設置輸入樣本的特征向量,然后再創建網絡模型,并根據模式分類數確定神經元的數目,最后任取一輸入模式Ak。

第三步:計算競爭層各神經元的輸入值si:

第四步:對本文建立的網絡進行訓練學習,網絡訓練最大次數的初始值設置為230,當訓練誤差大于預期的設定值的時候,可以嘗試增加訓練的最大次數,按“勝者為王”(Winner Takes All)原則,將訓練網絡中獲得最接近預期值的神經元作為勝者,輸出狀態設置為1,沒有獲勝的神經元的輸出狀態設置為0。如果有兩個以上神經元的sj相同,取左邊的為獲勝單元。

第五步:獲勝神經元連接權修正如下:

第六步:另選一學習模式,返回步驟3,直至所有學習模式提供一遍。

第七步:如果不滿足要求,則返回到最初的訓練狀態,反復訓練直至訓練網絡中神經元獲得最接近預期值,最終的訓練結束。

第八步:根據測試樣本利用Matlab編寫程序進行仿真實驗。

篇(2)

引言

隨著設備復雜化程度的提高,對故障診斷的快速性和準確性提出了更高的要求。將神經網絡應用于故障診斷中已成為一個非?;钴S的研究領域。利用神經網絡強大的分類能力,進行故障模式的分類與學習,診斷出故障。

Huang在前人研究的基礎上提出了一種稱為極限學習機(Extreme Learning Machine,ELM)的學習方法,在保留計算精度的同時可以大幅度的縮減訓練的時間。將ELM運用到設備故障診斷中,極大提高了診斷的快速性和準確性。

一、極限學習機研究現狀

ELM自2004年提出就一直受到學者的極大興趣。我們從ELM的理論和應用兩方面進行闡述。

1.1 ELM的理論

對于傳統ELM算法,網絡結構、激活函數類型以及隱層神經元的選擇對其泛化性能都有重要的影響。為了提高計算效率,使得ELM適用于更多應用領域,研究者提出了許多ELM擴展算法。

1.2 ELM的應用

研究人員已嘗試利用ELM方法解決現實中各種模式分類問題。隨著ELM自身理論的進一步發展和完善,在人臉識別、文本分類、醫療診斷等領域中應用廣泛。

二、故障診斷技術研究現狀

故障診斷技術是由于建立監控系統的需要而發展起來的。其發展至今經歷了3個階段。新的診斷技術帶來了領域內算法的革新,設備精密程度的提高也對診斷實時性提出了更高的要求。如何保證故障的快速準確診斷成了診斷技術發展重要內容。

基于神經網絡的故障診斷運用廣泛,然而傳統的神經網絡學習方法存在許多問題。與傳統的神經網絡相比,極限學習機方法通過隨機選取輸入權值及隱層單元的偏置值,可以產生唯一的最優解,并具有參數易于選擇以及泛化能力好等特點,在眾多領域有著廣泛應用。

三、基于極限學習機的故障診斷方法研究

3.1基于ELM的故障診斷流程

(1)數據預處理。按照選取的特征向量和故障類型對故障樣本進行預處理,并將處理后的樣本按比例分為訓練樣本集和測試樣本集。

(2)ELM的學習算法主要有以下3個步驟:確定隱含層神經元個數;隨機設定輸入層與隱含層間的連接權值和隱含層神經元的偏置;選擇隱含層神經元激活函數,進而計算隱含層輸出矩陣計算輸出層權值。

(3)用訓練好的ELM模型對測試樣本集進行分類,并輸出分類結果。

3.2基于改進ELM的故障診斷

篇(3)

基于自編碼神經網絡建立搜索信息模型的目的是根據用戶搜索信息的歷史,推斷出網頁中的內容是用戶關注的信息并即時顯示。首先將用戶關注的歷史信息按標題分類,通過自編碼神經網絡建立標題特征值數據庫。當自編碼神經網絡搜索信息模型工作時,按照用戶提供的關鍵詞順序,打開用戶經常瀏覽的網頁,讀入標題文本,若具有數據庫中的標題特征,則將該標題的文本內容即時顯示。

直接解析網頁中的標題文本,面臨的基本問題是文本的表示。如果把標題文本所有的詞都作為特征項,那么太多的特征向量維數導致計算量太大。例如50個標題,每個標題25個漢字,特征項將有50×25=1250個。如果將標題中的某個關鍵詞作為特征詞,將會有幾千個包含關鍵詞的標題,從而導致讀入分析量過于巨大。本文采用自編碼神經網絡,用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。

1 自編碼神經網絡

1.1 自編碼神經網絡理論

Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經網絡算法的無監督學習算法,與神經網絡算法的不同之處是將輸入值作為輸出節點的輸出。自編碼算法的另一個特征是隱藏層節點的個數一般少于輸入輸出節點的個數。這樣的意義是將輸入的特征通過神經網絡的非線性變換到節點數更少的隱藏層。因此,可以通過自編碼神經網絡對給定的樣本進行訓練學習,從而得到輸入數據降維后的特征,即為隱藏層的節點數,省去了人工特征提取的麻煩。

自編碼神經網絡結構示意圖如圖1所示[2]。這是一種深度學習的神經網絡,包含了多個隱含層,整個網絡是一種對稱的結構,中心層的神經元的個數最少。網絡通過對樣本的訓練可以得到一組權值系數,而輸入數據通過這組權值系數表達成低維形式,從而達到了用降維后的特征表示出輸入的數據。

圖1 自編碼神經網絡的結構

Fig.1 The structure of auto-encoder neural network

1.1.1 預訓練

(1) 輸入參數的確定:標題是作者給出的提示文章內容的短語,標題一般都簡練、醒目,有不少縮略語,與報道的主要內容有著重要的聯系。如登陸我的鋼鐵網站,搜索鋼管熱點資訊,顯示的標題有“我國自主研制*****油管成功替代進口”,學習樣本選擇50組標題,每個標題不超過25個漢字,如表1所示。

表1 學習樣本

Tab. 1 Learning samples

1

我國自主研制高端耐熱鋼無縫鋼管成功替代進口

2

我國自主研制K55石油套管成功替代進口

3

我國自主研制J55稠油熱采套管成功替代進口

4

我國自主研制專用耐高溫防火船舶用套管成功替代進口

5

我國自主研制20G高壓鍋爐管成功替代進口

6

我國自主研制特殊用途低溫用管成功替代進口

7

我國自主研制起重機臂架無縫鋼管成功替代進口

8

我國自主研制精密合金4J36船用管材成功替代進口

9

我國自主研制高強韌性高抗擠毀套管成功替代進口

10

我國自主研制三種極限規格管線管成功替代進口

……

50

我國自主研制醫藥化工用管成功替代進口

(2) 語句預處理[3]:學習樣本句子進行預處理是把句子中的每一個漢字變換成自編碼神經網絡模型能接受的數字化形式。為了使神經網絡能接受外部數據,首先要對句子中的漢字進行編碼,編碼方式是采用漢字的計算機內碼(GBK碼)。每個漢字機內碼有16位二進制,如:“我國自主研制”的二進制碼為

1100111011010010 我(GBK碼)

1011100111111010 國(GBK碼)

1101011111010100 自(GBK碼)

1101011011110111 主(GBK碼)

1101000111010000 研(GBK碼)

1101011011000110 制(GBK碼)

將16位二進制數轉換為十進制數并進行線性變換,映射到實數[0 1]之間,作為輸入神經元初值。變換公式如下:

式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。

(3)預訓練:幾個獨立的RBM構成“堆棧”構成了預訓練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網絡構成。它是一種隱含層神經元無連接,并且只有可見層和隱含層兩層神經元。

圖2 RBM網絡構成

Fig. 2 Construction of restricted boltzmannmachine

BM的權值調整公式為[4]

(1)

式中:在第t步時神經元i、j間的連接權值為wij(t);η為學習速率;T為網絡溫度;<uihj>+、<uihj>-分別為正向平均關聯和反向平均關聯。

在RBM中,可見層神經元的輸出和隱含層神經元輸出的乘積即為平均關聯。系數ε由η和T統一合并而成,迭代步長即由權值調整公式ε表示。

圖3 RBM網絡結構圖

Fig. 3 RBM network structure diagram

(4)MATLAB實現:

本文建立的BP神經網絡模型結構為

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

設定網絡隱含層的激活函數為雙曲正切S型函數tansig,輸出層的激活函數為線性激活函數purelin,網絡的訓練函數為Levenberg-Marquardt算法訓練函數trainlm。因此對應的MATLAB神經網絡工具箱的程序語句為

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);

設定學習速率為0.01,最大訓練步數為300,目標誤差為0.00001。

(5)預訓練結果:

預訓練結果如表2所示。

表2 預訓練結果

Tab. 2 The results of pre training

誤差

學習速率

步長

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2 展開

如圖4所示,將各個RBM連接,得到自編碼神經網絡。預訓練所得到的權值,將作為整個自編碼神經網絡的初始權值,參與整個網絡的微調訓練。

圖4 RBM展開圖

Fig. 4 Development of RBM network structure

1.1.3 微調

微調訓練是在預訓練得到初始權值的基礎上,對權值進一步調整。采用以交叉熵為目標函數[5]的BP算法完成網絡的微調訓練。交叉熵是用來度量兩個概率分布間差異性的,它是一個非負數,兩個分布越相似,其越小。原始的交叉熵定義為

(4)

式中:x為隨機變量;q(x)為已知概率分布;p(x)為估計概率分布。

對于隨機變量x,當用q(x)估計p(x)時,通過調整受x影響的p(x)來最小化交叉熵D(pq),用于自編碼神經網絡權值調整的BP算法交叉熵函數形式為

(5)

式中:ti目標概率分布;yi實際概率分布。

整個網絡訓練的目的是調整權值以使交叉熵函數達到最小,權值調整公式為

根據上面的權值調整公式,可以完成網絡的微調訓練。訓練結果如表3所示。

表3 微調訓練結果

1.1.4 特征提取

50組標題(每個標題不超過25個漢字)的學習訓練,通過自編碼網絡的逐層特征變換,將樣本數據約1250(50×25)個漢字編碼,在原空間的特征表示變換到一個新特征空間。其中網絡最深隱含層的輸出值(5個)和權值矩陣W6(5×8=40個),共計45個,為提取標題文本1250個漢字編碼的特征值。

2 實 例

本文選取10組標題文本見表4,分別輸入自編碼神經網絡。預測結果表示基本符合要求。

表4 預測結果

Tab. 4 The prediction results

序號

樣本輸入

結果顯示

1

我國自主研制的蛟龍號深水探測器成功替代進口

2

我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口

我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口

3

我國自主研制的超級計算機系統成功替代進口

4

我國自主研發的1000MPa高壓共軌管成功替代進口

我國自主研發的1000MPa高壓共軌管成功替代進口

5

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口

6

我國自主研制重載火車頭下線成功替代進口

7

我國自主研制成功特高壓交、直流套管成功替代進口

我國自主研制成功特高壓交、直流套管成功替代進口

8

我國自主研制的Q355GNH系列耐候鋼成功替代進口

我國自主研制的Q355GNH系列耐候鋼成功替代進口

9

我國自主研制的渦槳支線飛機成功替代進口

10

我國自主研制釩微合金L290管線鋼成功替代進口

我國自主研制釩微合金L290管線鋼成功替代進口

3 結 語

篇(4)

一種新的基于多描述編碼的應用層組播系統

基于屬性理論的教師教學質量動態評估

RIP和OSPF路由協議在Click軟件路由器中的實現

面向集裝箱字符識別的預處理算法

基于身份與位置分離策略可選的多宿主研究

基于分層Petri網的倉儲管理建模與驗證

一種基于云模型數據填充的算法

高速公路的匝道與可變限速聯合模糊控制

MPLS網絡中LSP模型改進研究

軟件組件的共代數語意

基于主被動連接的P2P節點識別算法

FARIMA網絡流量預測模型的研究與改進

基于H.264的視頻監控系統關鍵代碼實現與優化

PAIS中過程挖掘技術的研究

安慶氣溫的多重分形消除趨勢波動分析與預測

基于WordNet和Kernel方法的Web服務發現機制研究

一種新型的實時調度算法

基于反饋的高職網格資源共享方案研究與實現

面向目標檢測的高光譜圖像壓縮技術

基于單源多段圖方法的多目標決策算法與應用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應商選擇問題研究與應用

對IPSec中AH和ESP協議的分析與建議

一種基于混沌優化的混合粒子群算法

多軟件分時段租賃系統構想及其實現

SCTP協議分析與仿真研究

數碼輸入法字碼本的自動獲取技術

SVM和K-means結合的文本分類方法研究

二群協同的人工魚群優化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構造方法的實現

基于二元語義的語言加權取大改進算法的研究

面向TD協議棧的內存管理技術研究

隨機Petri網性能計算軟件關鍵技術的研究

基于Petri網的Web服務動態組合

BP神經網絡預測算法的改進及應用

移動自組網中基于推薦的信任模型

基于BPEL和QoS的動態Web服務組合框架研究

面向目標檢測的高光譜圖像壓縮技術

基于單源多段圖方法的多目標決策算法與應用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應商選擇問題研究與應用

對IPSec中AH和ESP協議的分析與建議

一種基于混沌優化的混合粒子群算法

多軟件分時段租賃系統構想及其實現

SCTP協議分析與仿真研究

數碼輸入法字碼本的自動獲取技術

SVM和K-means結合的文本分類方法研究

二群協同的人工魚群優化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構造方法的實現

基于二元語義的語言加權取大改進算法的研究

面向TD協議棧的內存管理技術研究

隨機Petri網性能計算軟件關鍵技術的研究

基于Petri網的Web服務動態組合

篇(5)

多溫下KCl+CsCl+C_2H_5OH/CH_3OH+H_2O四元體系的相平衡研究

MSTN基因的研究進展及其應用

制備條件對Ru/ZrO_2·xH_2O催化酯加氫制備醇活性的影響

微波萃取法制備桔梗總皂苷

基于DSP的紅外成像電力在線檢測系統的研究

LBG與SOFM應用于矢量量化的比較研究

超寬帶高功率脈沖輻射源氣體開關的研究

高壓直流牽引供電網的初步研究

智能醫用超聲波霧化器的設計

基于Wincc的炭黑裝置監控系統

定點CORDIC算法的誤差控制

基于各向異性擴散的多細節圖像消噪方案

基于S7-300和ACS800的橋式起重機控制系統改造

LiH薄膜制備技術進展

拉普拉斯方程有限差分法的MATLAB實現

關于不定方程組y~2-10x~2=9,z~2-17x~2=16

關于不定方程x~2+49~n=y~3的唯一整數解

基于非單調線搜索的無記憶擬牛頓法的全局收斂性

不動點、壓縮映射原理的進一步研究

弱橫向擾動下的熱塵埃等離子體中的塵埃聲孤波

時間域上拋物型方程正反演解的穩定性分析

Frattini子群的一些推廣

不動點定理在微分方程中的應用

超空間F_1(X)的可縮性

熱傳導方程反問題的數值解法

一類時滯廣義系統的魯棒控制

距離矢量路由算法的改進方案

基于JSP的電子郵件系統設計與實現

基于web的自適應學習系統的研究與設計

一種改進的基于分布式Caching的自適應搜索機制

Linux下嵌入式動態Web技術設計實現

基于窗函數的FIR濾波器的設計

力學試題庫管理系統的開發

單片機C51與匯編語言混合調用的實現

基于P2P覆蓋樹網絡的流媒體傳輸技術

數字校園信息顯示系統建設方案研究溫度對長鏈α-烯烴溶液聚合法合成原油減阻劑的影響

β-環糊精與常用的兩種光譜探針包絡作用對比研究

微波技術在竹漿漂白中的應用

基于蟻群尋路的圖像分割算法

公交車自動報站系統的設計

基于遺傳BP神經網絡的非平穩時間序列預

基于BP算法的神經網絡內模控制器

基于51單片機的可變調音樂演奏系統

基于神經網絡對光纖智能結構的損傷評估

基于改進互信息的特征提取的文本分類系統

CTIA型讀出電路的噪聲抑制

離心流化床的基本原理及發展趨勢

電驅微差6R關節型開鏈機械手工作空間運動學逆解

焦磷酸鹽鍍銅工藝研究

篇(6)

中圖分類號: TP391; TP18 文獻標識碼:B文章編號:1672-5913(2007)02-0072-04

支持向量機(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。傳統統計模式識別的方法都是在樣本數目足夠多的前提下進行研究,所提出的各種方法只有在樣本數趨于無窮大時其性能才有理論上的保證,而在多數實際應用中,樣本數目通常是有限的,很多傳統方法都難以取得理想的效果。Vapnik等人早在20世紀60年代就開始研究有限樣本情況下的機器學習問題。20世紀90年代,有限樣本情況下的機器學習理論研究逐漸成熟起來,形成了一個較完善的理論體系――統計學習理論(Statistical Learning Theory)。1992年到1995年,在統計學習理論的基礎上發展出了一種新的模式識別方法――支持向量機。隨著WWW的迅猛發展,文本分類成為處理和組織大量文檔數據的關鍵技術。SVM是繼k-近鄰、神經網絡、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結果的文本分類算法之一。

本文重點研究SVM在兩個不同的語料集上,選擇不同的特征維數,采用四種不同的核函數的分類性能比較。實驗結果表明,這種方法削弱了訓練樣本分布的不均勻性對分類性能的影響,可以將微平均準確率提高大約1%~2%。

本文第1節將闡述支持向量機算法的基本思想;第2節介紹目前廣泛應用的三種核函數;第3節給出了在著名的英文語料集Reuters-21578上的實驗結果與分析;第4節是結論和進一步工作展望。

1統計學習理論與支持向量機

統計學習理論就是研究小樣本統計估計和預測的理論,具有很好的泛化能力,為解決有限樣本學習問題提供了一個統一的框架。它能將很多現有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經網絡結構選擇問題、局部極小點問題等);同時,在這一理論基礎上發展了一種新的通用學習方法――支持向量機(SVM) 。

SVM是一種建立在統計學習理論基礎上的機器學習方法,有較好的推廣性能和較高的分類準確率。該算法基于結構風險最小化原理,將數據集合壓縮到支持向量集合(通常為前者的3%~5%),學習得到分類決策函數。其基本思想是構造一個超平面作為決策平面,使正負模式之間的間隔最大。

SVM方法是從線性可分情況下的最優分類面提出的。如圖1所示,圓圈和實心點分別代表兩類的訓練樣本,H為把兩類沒有錯誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫做兩轉類的分類間隔(Margin)。支持向量與超平面之間的距離為1/ω,則支持向量間距為2/ω尋找超平面的問題,可化為求解以下二次規劃問題:

3.3實驗結果與分析

為了考察算法的效果,我們采用了VC++6.0實現本文算法,部分源代碼采用復旦大學計算機與信息技術系李榮陸提供的文本分類器系統源代碼。實驗分為三個階段。

表1、表2實驗結果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統均能達到較好的分類效果,而實驗中采用多項式核函數和Sigmoid函數進行比較,經證明,在多數情況下前者優于后者。

4結束語

本文就文本分類的過程和關鍵技術進行了論述,并就不同核函數下文本分類的效果進行了實驗驗證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點。

參考文獻:

[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

篇(7)

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)03-0052-02

1 概述

隨著信息化時代的到來,計算機網絡以飛快的速度發展起來,用戶規模呈現出爆炸式的增長趨勢,且對網絡的通信質量要求越來越高;與此同時,基于網絡的各種軟件也層出不窮,大量不同類型的應用軟件導致了在網絡中傳輸的數據類型的差異性較之以往大大增加了,傳輸的復雜性也隨之提高。在此情況下,如何提供一種更加符合網絡現狀的管理方法,向用戶提供更加符合其需求的通信服務成為了當前計算機網絡領域研究的重點內容。在諸多的研究課題中,對網絡流量的科學分類受到了廣泛的關注,通過高質量的流量分類,可以追溯用戶的活動情況,從而在一定范圍內判斷當前數據的傳輸狀況,并可在此基礎上實現對網絡資源的QoS(Quality of Service)調度,進而為網絡的維護和后續擴張提供可靠的依據。除此之外,流量分類還可在網絡安全、用戶識別、寬帶流量計費等方面發揮重要的作用。

傳統的流量分類方式是由IANA提出的基于端口號的識別方式,該方式在以往應用服務種類不多的情況下是較為實用的,即根據熟知端口號識別有限數量的不同類型的應用服務進程,但隨著網絡規模的飛速增長,尤其是隨著P2P對等網絡的大發展,使得用戶數據的類型與日俱增,眾多的進程啟用了大量的隨機端口號,這對數據流量的識別是非常不利的,未來必須加以改進。

第二種方式是基于特征字段識別的,在早期該字段并沒有得到充分的利用,而目前隨著數據類型識別需求的不斷提高,該字段也被越來越多的通信服務所采用,但隨之而來的問題是該字段位于IP數據報的首部,這意味著需要在網絡層解決數據類型的差異問題,在通信過程中該數據報經過的路由器將不得不花費大量的資源和時間來解析和識別該字段,這勢必會拖慢網絡通信效率,同時增加網絡擁塞的風險。目前在P2P對等網絡中此方法使用較多,但對于實時性要求較高的通信服務而言,此方法導致的通信時延過高,并且會隨著應用層服務的改變而失效,表1給出了這兩種流量分類方式的對比分析。

表1 兩種傳統的流量分類方法對比

2 基于機器學習方法的流量分類

隨著網絡的發展,傳統方式已經無法勝任對數據流量進行合理的分類工作,這導致了數據沖突、資源耗費、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將人工智能領域內的機器學習機制引入到流量分類工作中,針對網絡流一些屬性的統計信息進行識別,以提高流量分類的準確性和快捷性,效果較為顯著,其算法過程如圖1所示:

圖1 基于機器學習方法的流量分類流程

算法步驟如下:

1)通過統計方法獲取流量的特征屬性最優組合集

流量屬性集通過統計形成網絡流的數據包的包頭信息得到。在進行統計分析之前,為了減少計算量,提高分析精確度,應對數據包信息進行篩選的預操作,其目的是將與分類需求相關的屬性盡可能的保留下來,反之則篩除,從而形成所謂的最有屬性集合,隨后在針對此集合進行分析,實現事半功倍的效果。在此特征選擇的過程中可以采用多種優化算法,如快速統計過濾法FCBF、順序前進法SFS、相關性特征選擇CFS和遺傳算法GA等。

2)采用機器學習方法進行分類

機器學習屬于人工智能領域內的一個分支,也存在多種不同的優化算法,目前在流量分類工作中得到應用的優化算法有K-近鄰K-NN、樸素貝葉斯方法NB、支持向量機SVM等。其中K-NN方法是最早得到應用的一種優化算法,分析結果較為準確,但缺點是計算量偏大,且魯棒性較低,受干擾影響較大,這對實時性和穩定性要求都很高的網絡通信而言無疑是一大障礙,因此其應用規模相對有限;NB算法也是早期在網絡流量分類得到應用的機器學習方法,其缺點在于算法得出的分析結果的質量高低存在一定的不可知性,若樣本選取的合理,則該算法相對可靠,若樣本分布質量不高,則該算法得出的分類結果往往也偏離真實情況;SVM可取得較高的分類準確率,但必須事先標記流量的應用類型,因此不能適應完全意義上的實時分類。

基于流統計特征的機器學習分類方法收到的外界干擾較小,且不需要執行繁瑣耗時的數據報首部解析工作,對于P2P網絡中出現的大量端口號也可以不受其影響,平均準確率比以上其他算法都要好,能夠準確的識別多個不同類型的數據流量,同時對于異常流量(如非法的數據流量)也可以實現一定程度的識別和判斷。但其缺點是敏感度過高,對于網絡的動態變化往往會出現過度響應,將原先正常的數據流量標注為異常點,從而導致系統的誤判,另一方面,該算法實現起來也相對復雜,需要進一步改進。

3 混合模式的流量分類方案

3.1 方案流程分析

本設計將傳統的分類方法和機器學習機制有機結合,對端口識別的流量分類模式進行改進,形成了一種新型的混合型流量分類方法,既保留了基于端口號識別模式的簡單、低開銷的優點,又有效地利用了機器學習機制的自適應性強、準確性高的優勢,明顯地改善了網絡流量分類的效率和可靠性,算法流程如圖2所示。

圖2 改進后的流量分類算法流程

混合模式的流量分類方案具體實現過程如下。

1)對流量樣本采用屬性選擇方法選出最優屬性集,降低算法輸入向量維數。

2)與常用協議的默認端口號匹配,實現粗分。若匹配成功則可不必啟用機器學習機制進行后續的分類,節約了工作量。

3)進入細分環節,此環節是為了進一步提高對流量分類的精確性而設定,主要采用基于自組織映射網絡的分類方法來完成。根據輸出標簽確定某一流量類別分布在port flow映射圖或non-port flow映射圖上。結合訓練樣本,確定輸出映射圖中相應區域的流量類型。

3.2 自組織映射

在本環節,采用深度學習算法中著名的神經網絡算法來實現進一步的優化,該算法具有識別能力強、自適應度高等優點,非常適合用來對數據流量進行準確分類,可以很好地解決對非線性曲面的逼近,其收斂速度遠高于傳統分類方法。

自組織映射SOM網絡是神經網絡中的一種常用算法,屬于無人監督的競爭型神經網絡,該網絡中的各個節點模擬為神經元節點,而在該網絡中傳輸的各個信息狀態則模擬為神經信號;該算法最大的特點就是將高維的輸入流量樣本以拓撲有序的方式變換到二維的離散空間上,其輸出分類結果可以直觀的以棋盤狀的二維平面陣顯示。根據此規律,可將SOM網絡用于對輸入的數據包特征信息的分類工作中,實現樣本的自動聚類,同時可方便的識別新的數據類型和異常數據類型,其具體過程如下:

設輸入樣本[X=(x1,x2,…,xn)T],權向量為[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],

其中n為輸入樣本的維數,m為映射圖神經元數量。對樣本和權向量進行歸一化處理,得到[X]和[Wj],通過SOM神經網絡執行以下兩個步驟

1)選擇競爭占優的神經元

[dj*=minj∈1,2,…,mX-Wj] (1)

2)計算該類神經元和與之相鄰的其他節點的網絡權值

[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)

式(2)中,t為學習次數,[η(t)]為學習成功率,[N(t)]為獲勝的鄰域。

做完了準備工作后,SOM網絡就可將所有權值W轉化為在[-1,1]區間的隨機數,并根據此選擇一個流量樣本n,解析其特征屬性并送至神經網絡的輸入接口,設置初始t=0,因此有N(0)和[η(0)]。輸出層各神經元通過式(1)全局搜索最接近的優勝神經元j*。按式(2),對j*及其鄰域內的所有神經元調整權值,然后縮小鄰域[N(t)],減小學習率[η(t)],重新調整鄰域內神經元的權值直到學習率衰減為0。當算法運行到這一步時,若流量樣本集合不為空集,則可繼續執行下去,在非空集合內隨機選擇一樣本,重新執行本輪的學習過程,直至所有樣本均完成訓練,此時就可生成一張完整的流量類別映射圖,最后根據樣本激活神經元的位置可判斷流量類別,實現數據流量的精確分類。

4 結束語

目前,在網絡流量分類的研究工作中,更多地傾向于將優秀的智能算法同以往傳統的分類方法相結合的研究路線,其中

很多優化算法仍舊處于起步階段,從理論上看,基于流統計特征的機器學習的方法自適應性強,可擴展性好,可靠性也有足夠的保障,應用在流量分類領域內是非常合適的,但其計算量較大仍舊是該算法推廣過程中遇到的主要障礙,相信隨著人工智能領域研究的不斷突破,會出現更多的優秀方法應用在網絡流量分類工作中,進一步增強流量分類的工作效率,為廣大用戶提供更高|量的數據通信服務。

參考文獻:

[1] 徐鵬,劉瓊,林森.基于支持向量機的Internet流量分類研究[J].計算機研究與發展,2009,46(3): 407-414.

[2] 王琳.面向高速網絡的智能化應用分類的研究[D].濟南:濟南大學,2008.

篇(8)

DOIDOI:10.11907/rjdk.162026

中圖分類號:TP319

文獻標識碼:A 文章編號文章編號:16727800(2016)011013403

0 引言

中國是世界上最大的煙草生產國和消費國[1]。煙草銷售是煙草行業管理中最為關鍵的部分,準確的煙草銷售預測能為煙草生產、運輸、配送提供指導,而要進行準確的煙草銷售預測必須找到合適的預測方法。因此,如何設計高精度的煙草銷售預測方法是煙草行業管理的重要課題。

傳統煙草銷售量預測方法的研究主要集中在對煙草零售經營者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經理及員工的意見)等為主的人工預測方法[2]。這種人工預測方法業務流程較多,浪費大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場需求。從機器學習的角度上看,煙草銷售量的預測屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻[4]在對煙草銷售量數據進行分析的基礎上,提出了一種線性預測模型,但由于煙草銷售量受季節、人口、市場、節假日等一系列因素的共同影響,并不適合采用線性回歸方法進行預測。在非線性回歸方法中,較為常用的有神經網絡和支持向量機(SVM)。文獻[5]基于BP神經網絡對煙草銷售量進行建模并預測,而神經網絡是基于經驗風險最小化,不僅泛化能力較差,而且存在局部極小點問題[6],因此神經網絡雖然對原始數據的擬合能力較強,但對未來數據的推廣能力較差,而對未來數據的推廣能力往往更能反映學習機器的實用價值。支持向量機基于結構風險最小化,泛化能力強且預測精度高。因此,本文采用支持向量機方法對煙草銷售量進行建模預測。

1 支持向量回歸機

2 預測方法

2.1 數據預處理

本文收集到了云煙品牌一個品類2006年1月~2011年10月共6年的銷售數據,銷售數據信息中包括銷售量、銷售日期(年月日)、倉庫編號、發票信息、審核人信息等,其中對銷售量預測影響最大的是銷售日期及對應的銷售量。由于中國的香煙銷售對陰歷呈現出更強的規律性,因此將銷售統計數據轉換為以陰歷月為標準。

2.2 數據歸一化處理

由表1可以看出,各列數據屬性不同,數值范圍相差較大。為避免數值范圍較大的屬性控制數值范圍較小的屬性,使數據具有統一性和可比性,將屬性值都歸一化[10]為[0,1]之間。歸一化所用公式為:

2.3 模型定階

由于煙草銷售量預測屬于經濟預測,因此它不僅與當前日期有關,更與之前的銷售信息有關。為確定當前銷售量與前多少個月的銷售信息關系最大,需要通過拓階[11]的方法來確定。

設煙草銷售量數據的一個樣本為{yi,yeari,monthi},yi為第i個樣本中的煙草銷售量,yeari為當前年份,monthi為當前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準確地得到自變量和因變量的函數依賴關系。當階數為n時,表示將前n個樣本中的信息添加到當前樣本中的自變量中。即用前n個月的銷售信息和當前年月來預測當前銷售量。此時,自變量總數為(3×n+2),其中n為階數。通過SVM由低階到高階逐步進行拓階,模型每拓一階,自變量相應地增加 3個。對于每一次的拓階,以MSE最小為標準決定是否接受拓階。設SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優階數n。通過對煙草數據的拓階,得到拓階結果如圖2所示。

2.4 回歸模型的參數選擇

當訓練模型確定后,通過支持向量回歸機進行預測。由于徑向基核函數的準確率較高,并且大多數SVM默認的核函數也是徑向基核函數[12],本文亦采用徑向基核函數。

3 實驗結果與分析

以云煙數據集為例,選擇2006年1月-2010年12月的銷售量數據為訓練樣本,以2011年1-10月的銷售量數據為測試樣本。在本文算法實現過程中,實驗環境配置如表2所示。

4 結語

通過預測煙草銷售量可以提前了解煙草的銷售動態,為煙草物流、倉儲等部門提供決策依據。本文基于支持向量機建立煙草銷售預測的多維時間序列模型。實驗證明,根據本文方法建立的模型所預測的結果與實際結果基本一致,能夠比較準確地反映煙草銷售量的變化趨勢。對比實驗也證明,與其它幾種方法相比,本文方法預測誤差最小。綜上,本文所述方法是合理有效的,可以應用到實際煙草銷售量預測中。

參考文獻:

[1] 蔣德B.我國煙草業國際化戰略研究[J].北方經濟,2012(14):9495.

[2] 利普?科特勒,洪瑞云,梁紹明,等.市場營銷管理 [M].亞洲版?2版.北京:中國人民大學出版社,2001.

[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計算機應用,2012,32(9):25042507.

[4] 張素平.基于乘法模型的內蒙古烏蘭察布市卷煙總銷量預測研究[J].內蒙古科技與經濟,2012(21):3335.

[5] 仲東亭,張h.BP神經網絡對煙草銷售量預測方法的改進研究[J].工業技術經濟,2007,26(9):115118.

[6] 劉蘇蘇,孫立民.支持向量機與RBF神經網絡回歸性能比較研究[J].計算機工程與設計,2011,32(12):42024205.

[7] 鄧乃揚,田英杰.數據挖掘的新方法――支持向量機[M].北京:科學出版社,2004

[8] 肖建,于龍,白裔峰.支持向量回歸中核函數和超參數選擇方法綜述[J].西南交通大學學報,2008,43(3):297303.

[9] 單黎黎,張宏軍,張睿,等.基于主導因子法的裝備維修保障人員調度值預測[J].計算機應用,2012,32(8):23642368.

[10] 彭麗芳,孟志青,姜華,等.基于時間序列的支持向量機在股票預測中的應用[J].計算技術與自動化,2006,25(3):8891.

[11] 向昌盛,周子英.基于支持向量機的害蟲多維時間序列預測[J].計算機應用研究,2010,27(10):36943697.

[12] 譚征,孫紅霞,王立宏,等.中文評教文本分類模型的研究[J].煙臺大學學報:自然科學與工程版,2012,25(2):122126.

[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.

[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.

篇(9)

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)04-1020-02

自動分類技術是利用計算機系統對文本集按照一定的分類體系或標準進行自動類別標記,分類工具根據文檔的信息將其分配到已經存在的類別中,也稱“主題”。

隨著網絡的迅猛發展,網頁、電子郵件、數據庫、聊天室和數字圖書館等電子文本成幾何級數不斷增長,處理這些海量數據的一個重要方法就是將它們分類。當我們瀏覽一個網站查找信息時,如果網頁凌亂的堆積在一起沒有類別供我們查找,會使我們很難找到自己所需的信息?,F在,大型網站都將網頁分類,以方便人們瀏覽。比如,Yahoo就將網頁放在一個巨大的層次分類結構中,通過組裝維護這些類別,可以幫助人們查找知識和信息。網頁自身并沒有類型區分,這就需要人工分類,將網頁、郵件等各種格式的文檔經過文法分析都可以轉化為純文本,而自動文本分類系統可以幫助人們檢查文本、判斷文本所屬類別。

1 自動分類技術的現狀

到目前為止,國外已在自動分類領域進行了較為深入的研究。已經從最初的可行性基礎研究經歷了實驗性研究進入實用階段,并在郵件分類、電子會議、信息過濾等方面取得了較為廣泛的應用[1]。

國內對自動分類技術的研究相對較晚。1986年,上海交通大學電腦應用技術研究所開發的中文科技文獻(計算機類)實驗性分類系統。1995年,清華大學電子工程系研制的漢語語料自動分類系統。1998年,東北大學計算機系的新聞語料漢語文本自動分類模型。1999年,由鄒濤等人開發的中文技術文本分類系統CTDS。除此之外,國內眾多學者對中文文本分類算法也進行了深入研究,黃萱箐等提出的基于機器學習的、獨立于語種的文本分類模型[3],周永庚等研究的隱含語義索引在中文文本處理中的應用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語言本體庫為基礎,建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領域知識引入文本分類,利用領域知識作為文本特征,提出一種基于知識的文本分類方法等[7]。

從20世紀90年代以來,基于機器學習的文本分類逐漸成為文本分類的主流技術。近年來文本分類技術取得了很大的進展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機、最大熵模型等,建立了OHSUMED,Reuters等開放的分類語料庫。

2 自動分類技術的類型

根據目的性,信息自動分類包括自動聚類和自動歸類兩種類型。

2.1 自動聚類

由計算機系統對待分類文本進行分析并提取有關的特征,然后對提取的特征進行比較,根據一定規則將具有相同或相近特征的對象定義為一類。自動聚類的目的是在已有信息中定義符合實際情況的類。在網站的非主要分類體系中,也可以用自動聚類的方法自動生成欄目內的類別。

2.2 自動歸類

計算機系統對分類文本提取有關特征,然后與既定分類系統中對象所具有的公共特征進行相關性比較。將對象歸入其特征最相近的類中。自動歸類的目的是把各種信息納入已建立的分類系統中,用于搜索引擎或網站導航系統的管理和數據更新。根據使用的技術,自動歸類通常分為基于詞的自動分類(詞典法)和基于專家系統的自動分類(知識法)兩大類,也有人將界于兩種技術之間的稱為基于信息的自動分類。

3 文檔分類關鍵技術分類及方法

現有的文本分類技術主要采用3 種方法:基于連接的方法、基于規則的方法和基于統計的方法。

3.1 基于連接的文本分類方法

基于連接的方法主要是利用人工神經網絡來模擬人腦神經網絡,并期望其能像大腦一樣地運作,一樣地學習,從而產生智慧。這種方法可以實現信息的分布存取,運算的全局并行,并且可在進行非線性處理的同時具有高容錯性等特點,適用于學習一個復雜的非線性映射。但是使用他學習所形成的知識結構是人所難以理解的,系統本身也不具有良好的透明性。

3.2 基于規則的文本分類方法

基于規則的方法本質上是一種確定性的演繹推理方法。其優點在于他能根據上下文對確定性事件進行定性描述,并且能充分利用現有的語言學成果。其成立的前提是有大量的知識,而這些知識必須是人類專家總結出來的。由于必須有人的參與,這種方法側重于知識的可理解性和可讀性,對于有些統計方法無法解決的問題,利用基于規則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規則之間的相容性等方面存在一些缺陷和限制。常用的基于規則的方法有決策樹、關聯規則等。

3.3 基于統計的文本分類方法

基于統計的方法本質上是一種非確定性的定量推理方法?;诮y計的方法的優勢在于他的全部知識是通過對大規模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對語言處理提供了比較客觀的數據依據和可靠的質量保證。但由于其是基于概率的一種方法,因此必然會對小類別文本即小概率事件造成忽視。常用的基于統計的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機、最大熵模型等。

3.4 經典文本分類方法

3.4.1 KNN算法

KNN算法即k- Nearest Neighbor 分類方法,是一種穩定而有效的文本分類方法。采用KNN 方法進行文檔分類的過程如下:對于某一給定的測試文檔d,在訓練集中,通過相似度找到與之最相似的k個訓練文檔。在此基礎上,給每個文檔類打分,分值為k個訓練文檔中屬于該類的文檔與測試文檔之間的相似度之和。也就是說, 如果在這k個文檔中,有多個文檔屬于一個類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對這k個文檔所屬類的分值統計完畢后,即按分值進行排序。還應當選定一個閾值,只有分值超過閾值的類才予考慮。測試文檔屬于超過閾值的所有類。形式化表示為:

■(1)

其中,dj∈ci時y(dj,ci)=1;dj?埸ci時y(dj,ci) 。

bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測試文檔d屬于ci類的分值。一般的,bi是一個有待優化的值可以通過一個驗證文檔集來進行調整。驗證文檔集是訓練文檔集的一部分,根據公式(1)可確定測試文檔的類別。很顯然,對于每一個測試文檔,必須求解其和訓練文檔庫中所有文檔的相似度。因此, KNN方法的時間復雜度為o(|D|ni)。其中,|D|和ni分別為訓練文檔總數和測試文檔總數。

3.4.2 SVM

支持向量機(Support Vector Machine,SVM)是在統計學習理的基礎上發展而來的一種機器學習方法, 該模型是基于結構風險最小化原理的方法,把原始數據集合壓縮為支持向量集合,其基本思想是構造出一個超平面作為決策平面,使正負模式之間的空白為最大化。在解決小樣本、非線性及高維模式識別問題中SVM表現出了許多特有的優勢, 并在很大領域得到了成功的應用,如:人臉識別、手寫字體識別、文本分類等。其中,SVM在文本分類方面的表現尤為突出。

SVM 的基本思想可用圖1的兩維情況進行說明。圖1中,圓形實心點和菱形實心點代表2類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。分類線方程為:

x?w+b=0

在此可以對他進行歸一化,使得對線性可分的樣本集:

(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n

此時分類間隔等于2/w, 使間隔最大等價于使w2最小。滿足式且使間距為w/2的分類面就叫做最優分類面, H1 , H2上的訓練樣本點就稱作支持向量。

基本的SVM是針對兩類分類問題的,為了實現對多個類別的識別,需要對SVM進行擴展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹等方法。實驗結果表明DAGSVM 方法要優于其他2 種方法。Weston和Watkins[2]對SVM的理論進行了擴充,使其一次就可以完成多類分類,但是實驗結果顯示其分類查準率要低于One-vs-Rest 和One-vs-One方法。

4 技術的發展趨勢與展望

本文介紹了文本分類的研究背景,國內外關于文本分類技術研究的最新動態,總結了近年來文本分類研究的關鍵技術。文本分類技術有著廣泛的應用,逐漸趨于實用。

但隨著自動分類技術相關應用的發展,及對其需求的不斷提升,文本分類技術仍有非常多的問題值得研究:可靠、有效及快速的在線分類;基于語義度量的數據模型和分類方法;緩解樣本標注瓶頸以及樣本數據分布帶來的影響等。隨著數據挖掘領域和機器學習理論、技術研究的不斷深入, 針對解決不同實際應用和數據特征的問題將成為文本分類相關研究,及其應用的主要突破方向和攻克難點。

參考文獻:

[1] 李榮陸.文本分類及相關技術研究[D].上海:復旦大學,2005.

[2] 李應紅.慰詢楷. 劉建勛.支持向量機的工程應用[M].北京:兵器工業出版社,2004.

[3] 黃萱菁,吳立德,石崎洋之,等. 獨立于語種的文本分類方法[J].中文信息學報,2000,14(6):1-7.

[4] 周水庚,關佶紅,胡運發. 隱含語義索引及其在中文文本處理中的應用研究[J].小型微型計算機系統,2001,22(2):239-244.

[5] 李榮陸,王建會,陳曉云,胡運發等. 使用最大熵模型進行中文文本分類[J].計算機研究與發展.2005,42(1):94-101.

篇(10)

自80年代,我國工程項目管理事業得到了飛速發展,工程項目建設過程中的質量、進度和成本得到有效控制。施工企業的經營管理水平和項目經理部的施工現場管理水平有了較大的提高。特別是《建設工程項目管理規范(GB/T50326一2001)》[1]的為我國的工程項目管理逐步向制度化、規范化、信息化邁進提供了保證。但由于我國的工程項目管理起步較晚,在管理的信息化和管理手段的現代化方面距全面實現計算機輔助管理及咨詢決策尚有較大差距。

1 系統主要功能

CPMMIS的基本功能包括工程項目現場管理信息系統、公司的信息管理系統、公司的咨詢決策系統三大部分,三個系統運行在一個共享信息的網絡平臺上。該系統的工作流程與目前工程項目管理的實際情況一致。它既能用于公司內部管理(局域網),也能用于現場項目部的管理(單機或局域網),還能夠通過與Internet連接,實現公司對項目部的適時管理;具有一定的決策支持功能。

1.1 工程項目現場施工管理系統

工程項目現場施工管理的主要工作可以概括為“三控兩管一協調”,因此該部分主要是為各項目部提供輔助管理的功能模塊(日常管理、質量管理、進度管理、成本控制與結算管理、合同管理、生產要素管理等模塊),為正確作出決策提供保證,并按規定格式形成報表。

1)日常管理子系統:主要完成施工準備期、施工期、交(竣)工驗收及保修期的項目管理工作。主要收集設計信息;施工準備階段的管理信息(法律法規與部門規章、市場信息、自然條件);工程概況信息(工程實體概況、場地與環境概況、參與建設的各單位概況、施工合同、工程造價計算書);施工信息(施工記錄、施工技術資料);項目管理信息(項目管理規劃大綱、項目管理實施規劃);施工過程項目管理各專業的信息(進度控制、質量控制、安全控制、成本控制、現場管理、合同管理);生產要素信息(材料管理、構配件管理、工器具管理、人力資源、機械設備);項目結算信息;組織協調信息;竣工驗收信息;考核評價信息;項目統計信息等。日常管理子系統的另一項工作是及時收集和處理從監理、業主、分包、設計、材料供應等單位送交的報告資料。為了及時、規范地處理這些報告,系統設置了大量的知識庫、模板庫、素材庫,運用基于神經網絡的群體決策支持技術[2、3],幫助現場管理人員及時有效地處理有關報告資料。

2)質量管理子系統:主要完成質量目標確定;項目質量計劃編制;項目質量計劃實施。施工合同簽訂后,項目部應索取設計圖紙和技術資料,指定專人管理并公布有效文件清單。單位工程、分部工程和分項工程開工前,項目技術負責人應向承擔施工的負責人或分包人進行書面技術交底。對工程測量、材料的質量、機械設備的質量、工序質量、特殊過程質量、工程變更及施工中發生的質量事故應進行有效控制和處理。同時建立和維護質量檢驗評定標準、進行原材料質量檢驗、現場施工質量檢查、分項(單元)工程質量數據收集,分項工程、分部工程、單位工程、工程項目的質量評定,施工質量文檔管理,質量報表與統計圖形輸出。另外,還包括質量安全事故分析處理功能模塊,如事故調查分析、事故檢驗分析、事故評價、事故處理等。

3)進度管理子系統:包括項目初始進度(總進度、單項工程進度、分部工程進度、關鍵工序施工進度)數據的建立和維護、網絡計劃的形成和優化、計劃進度輸出、實際進度統計、進度的動態跟蹤管理。在施工方案選擇、施工進度計劃編制和施工平面圖設計中,系統運用了基于神經網絡的施工方案決策支持系統。

4)成本控制和結算子系統:包括各類計量結算項目編碼和查詢(如清單項目、工程變更項目、工程索賠項目、其他需要結算的項目)。系統能根據每月分部分項成本的累計偏差和相應的計劃目標成本余額預測后期成本的變化趨勢和狀況,根據偏差原因制定改善成本控制的措施,控制下月施工任務的成本。并能用對比法分析影響成本節超的主要因素。在確定施工項目成本各因素對計劃成本影響的程度時,可采用連環替代法或差額計算法進行成本分析。

5)合同管理子系統:包括合同分類、合同目錄一覽表、合同文本管理(如各類合同條款的建立、修改、查詢)、分包工程管理、工程變更管理、工程索賠管理、工程暫停及復工管理、工程延期及工程延誤的處理以及爭端的調解等。另外還能完成合同數據統計、匯總、查詢、打印,與合同管理有關的資料的收集與分析。

1.2 公司信息管理系統

篇(11)

在針對金融學領域進行實證研究時,傳統研究方法通常選擇結構化數據作為研究依據,常見類型如股票市場數據、財務報表等。大數據技術發展后,計算機技術逐漸成熟,在實證研究中可獲取更加多樣化的數據,非結構化文本大數據得到應用,例如:P2P網絡借貸文本、財經媒體報道、網絡搜索指數、上市公司披露文本、社交網絡文本等。本文探討了相關文本可讀性、相似性、語氣語調與語義特征等。

1.在金融學研究中文本大數據的挖掘方法

傳統研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數量龐大、信息構成復雜,人工識別效率較低,而且信息識別質量不穩定,信息識別效果受到閱讀者專業素養、理解能力等多方面因素影響。計算機技術發展后逐漸被應用于分析文本大數據,利用計算機技術獲取語料,對文本資料進行預處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數據時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數據,獲得文本分詞,標注詞性,將其中停用詞清除。(2)構建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關聯性。(4)監督機器學習、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲??;(2)利用網絡工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網絡抓取的可行性相對較高[3]。網絡抓取方法可有效應對大量文本量,在一定程度上降低文本大數據獲取難度。在網絡抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數據。采用此種語料獲取模式具有兩方面顯著優勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內容和規范形式,為后續文本分析工作奠定基礎[4]。

1.2預處理環節

獲取目標語料后,前期需要預處理文本,解析、定位文本,清洗數據,標注分詞與詞性,最后去除停用詞。金融市場通常要求企業采用PDF格式作為信息披露文檔格式,文本預處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數據環節中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內容結構外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內容,需要刪除和清洗相關信息,從文本中篩選有價值的核心內容[6]。文本分詞處理與文本語言密切相關。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據中文語言習慣,詞語為最小語言單位,可獨立使用。基于此種背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業績說明會以及企業財務報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學直接影響分詞精準度。分詞處理新詞時,需要用戶在相應模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關鍵依據是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結構進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結構完整性而言非常重要的詞語。停用詞導致文本數據具有更繁瑣維度,導致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復雜,必須結合語言習慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應根據具體研究內容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。

1.3文檔表示環節

文本數據為高維度數據,具有稀疏特點,使用計算機處理文本數據時難度較高,預處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術具有可視化特點,是文本大數據技術之一。所謂本文可視化,即使用視覺符號顯示復雜內容,展示文本規律。根據生物特性,人們習慣于通過視覺獲取文本信息,實現文本可視化可提高信息提取效率。使用詞云技術可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構建基礎是無嚴格語序要求的文字詞組存在[9],以此種假設為前提,文本相當于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現頻率。在詞袋模型中含有兩種構建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應用優勢是可行性較高,操作難度較低。例如:現有如下兩個文檔:(1)文檔一:“經濟學中文本大數據使用”;(2)文檔二:“金融學中文本大數據使用”。以文檔一、文檔二為基礎建設詞表,根據詞序實施詞袋化處理,確定詞袋向量。對于出現的詞,以“1”表示,未出現的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現頻率存在差異,通常文本中高頻詞數量較少,許多詞匯使用頻率較低。為體現文檔中不同詞語的作用,對單詞詞語賦予權重。TF-IDF是計算文檔定詞語權重的有效方法。含有詞語i文檔數描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內詞語數量描述為aj,第i個文檔內詞語i權重描述為tf-idfi,j,則公式應表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權重。在賦予其權重的基本方法時文本中該詞匯出現頻率越高,其重要性越高,與此同時語料庫中該詞匯出現頻率越高,則其重要性相應降低。詞嵌入處理中,主要是在低緯度連續向量空間嵌入指定高維空間,該高維空間維數包括全部詞數量。在金融學領域中進行文本研究時,詞嵌入技術通常采用Word2vec技術,該技術中主要使用CBOW技術與Skip-Gram神經網絡模型,針對神經網絡進行訓練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應用頻率較高的是LDA模型,應用此種模型進行文本分析屬于無監督機器學習法,通過此種方法才能夠大量集中語料中提取主題信息。在應用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應主題,從這些主題中抽取一個主題,然后假定文檔具有對應詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優勢是,與手動編碼相比,該模型性能更完善,可有效分類大規模文檔。該模型做出的文本主題分類支持復制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關鍵詞、規則設定。LDA模型的缺點是在主題預設個數時,受到研究者主觀因素影響,選擇主題個數的數量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關聯性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產生積極影響。有研究者在文本分析中使用迷霧指數,該類研究認為,迷霧指數與年報可讀性呈負相關。年報文本字數、電子文檔規格也是影響年報可讀性的重要因素。在使用迷霧指數評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導致文本難以理解,然而正常文本和經過隨機排序處理的文本在分析計算時,顯示相同迷霧指數。不僅如此,在進行商業文本測量時采用迷霧指數作為依據具有顯著缺陷,例如,當對企業披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業實際復雜性?;诖朔N背景,在針對年報文本可讀性進行評價時,需要結合企業業務復雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監督機器學習法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復制。不僅如此,建設詞典時還需要融合大量金融學專業知識,從而使詞典與金融文本分析需求一致。使用現有多種類詞典、文獻等分析媒體報道情緒,針對財務報告進行語氣語調分析,以及進行電話會議等進行語氣語調分析等。中文大數據分析時,通常是以英文詞典、詞庫等為模板,構建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風險高低。在詞典法應用中需要結合加權法進行文本情緒分析[12]。有監督機器學習法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環節在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監督機器學習法的缺點是必須人工編碼設置訓練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復制。其優點是分類精確度較好。

2.文本大數據分析

大數據分析主要是進行財務報告等公司披露文本信息、搜索指數、社交網絡文本以及財經媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調等,然后分析股票市場行為與文本特征等相關性。分析披露文本信息時,主要是利用文本信息對企業財務、經營、管理層長效經營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數理論認為,財務報告具有較高可讀性的企業通常具有更長久的利潤。此外,有研究者提出,財務報告可讀性直接影響盈余預測離散性和可靠性。財務報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務報告可讀性可對投資者行為做出影響[13]。在針對企業發展情況和股票市場發展趨勢進行分析時,披露文本語氣語調具有重要參考價值。相關研究認為,MD&A語氣內含有增量信息,該類信息為企業長效經營能力進行預測,同時可根據該類信息分析企業破產風險。管理者情緒狀態可表現在電話會議語氣中,此種語氣分散情況與經營決策具有相關性,同時語氣對投資者感知、分析師評價產生影響。分析財經媒體報道時,主要關注媒體情緒,分析媒體報道著眼點,針對經濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網絡文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數研究方面,主要通過搜索指數了解投資者關注度。

主站蜘蛛池模板: 福州市| 城口县| 博乐市| 辽阳市| 修水县| 呈贡县| 军事| 双牌县| 彰化县| 长沙市| 浦北县| 金乡县| 磐石市| 清徐县| 荆州市| 隆林| 莱州市| 河南省| 大荔县| 天水市| 江源县| 高碑店市| 宝应县| 卢湾区| 吉林省| 洪雅县| 林甸县| 乌鲁木齐市| 岚皋县| 井研县| 闽清县| 汕头市| 尚志市| 甘洛县| 汾西县| 仁化县| 来安县| 屏南县| 大足县| 城口县| 彝良县|