緒論:寫作既是個人情感的抒發(fā),也是對學術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇數(shù)據(jù)分析的方法范文,希望它們能為您的寫作提供參考和啟發(fā)。
最簡單的拆分方法就是不看平均值,看數(shù)據(jù)分布。因為凡 是“總和”或者“平均”類的統(tǒng)計數(shù)據(jù)都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時間我們公司辦公室里的“平均資產(chǎn)”就會因為李嘉誠一個人 被抬高到人均幾億身家。如果有人根據(jù)這個“平均資產(chǎn)”數(shù)據(jù)來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。
可實際上,我們每天都在做著類似的判斷,比如當我們聽到說顧客“平均在線時間”是3分34秒,就可能根據(jù)這個時間來進行業(yè)務決策,例如設置“停留時間超過3分34秒為高價值流量”,或者設置系統(tǒng),在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務窗口。我們設置這些時間點的根據(jù)是“平均停留時間”,在我們的想象里,我們的每個顧客都有著“平均的”表現(xiàn),停留時間大致都是3分34秒,可實際上真正的顧客訪問時間有長有短,差別巨大:
在一些數(shù)據(jù)中我們可以看得出來,訪客平均停留在頁面的時間非常的短暫,具體的也就是說,問需要在淘寶數(shù)據(jù)分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個就看個人是怎么想的了,這里也就不多說了。
再舉一個例子,比如我們看到上個月平均訂單金額500元/單,這個月也是500元/單,可能會覺得數(shù)字沒有變化。可是實際上有可能上個月5萬單都是400~600元,而這個月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習慣已經(jīng)發(fā)生了巨大變化,一方面可能是客戶訂單在變小(可能是因為產(chǎn)品單價下降,采購數(shù)量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現(xiàn)了一些相對較大的訂單(可能是中小企業(yè)采購,或者是網(wǎng)站擴充產(chǎn)品線見效了)。——看數(shù)據(jù)分布可以讓我們更容易發(fā)現(xiàn)這些潛在的變化,及時的做出應對。
二、拆因子
很多時候我們很難直接從數(shù)據(jù)變化中分析出具體的原因,這時可以考慮拆分因子,將問題一步步細化找尋原因。
例如網(wǎng)站轉(zhuǎn)化率下降,我們要找原因。因為“轉(zhuǎn)化率”=“訂單”/“流 量”,所以“轉(zhuǎn)化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個思路我們可能發(fā)現(xiàn)主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么
下面我們就可以來拆解“流量”的構(gòu)成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發(fā)生了變 化,接下來再找原因。這時我們可能看到說是搜索引擎訪問流量上升,那就可以再進一步分析是付費關(guān)鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網(wǎng)站名相關(guān))關(guān)鍵詞流量上升,還是其他詞帶來的流
量上升——假如最后發(fā)現(xiàn)是非品牌類關(guān)鍵詞帶來的流量上升,那么繼續(xù)尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產(chǎn)品頁面改版過,就可以查一下是不是因為改版讓搜索引擎收錄變多,權(quán)重變高。接下來再分析自己到底哪里做對了幫助網(wǎng)站SEO了(比如把頁面導航欄從圖片換成了文字),把經(jīng)驗記下來為以后改版提供參考;另
一方面還要分析哪里沒做好(因為新增流量但是并沒有相應增加太多銷售),研究怎樣讓“產(chǎn)品頁面”更具吸引力——因為對很多搜索引擎流量來說,他們對網(wǎng)站的第一印象是產(chǎn)品頁面,而不是首頁。
三、拆步驟
還有些時候,我們通過拆分步驟來獲取更多信息。
舉兩個例子:
第一個例子:兩個營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個營銷活動效率差不多?
如果我們把每個營銷活動的流量拆細去看每一步,就會發(fā)現(xiàn)不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產(chǎn)品更感興趣,看完著陸頁之后更多的人去看了產(chǎn)品頁面。可惜的是雖然看產(chǎn)品的人很多,最后轉(zhuǎn)化率不高,訂單數(shù)和營銷活動 A一樣。
這里面還可以再深入分析(結(jié)合之前提到的分析方法,和下一章要說的細分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個營銷活動的顧客習慣不太一樣,營銷活動 B的著陸頁設計更好,營銷活動 B的顧客更符合我們的目標客戶描述、更懂產(chǎn)品——但是我們的價格沒有優(yōu)勢等等這些猜想是我們深入進行分析,得出行動方案的起點。至少,它可以幫助我們
更快的累計經(jīng)驗,下次設計營銷活動的時候會更有的放矢,而不是僅僅寫一個簡單report說這兩個營銷活動效果一樣就結(jié)案了。(注:這是個簡化的例子,實際上還可以分更多層)
第二個例子可能更常見一些,比如網(wǎng)站轉(zhuǎn)化率下降,我們可以拆成這樣的漏斗:
這樣拆好之后,更能清楚地看到到底是哪一步的轉(zhuǎn)化率發(fā)生了變化。有可能是訪客質(zhì)量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運費放到購物車中計算,很可能就看到這一步流失率飆升),這樣拆細之后更方便我們分析。
曾經(jīng)有一個例子就是轉(zhuǎn)化率下降,市場部查流量質(zhì)量發(fā)現(xiàn)沒問題,產(chǎn)品經(jīng)理查價格競爭力也沒問題——最后發(fā)現(xiàn)是技術(shù)部為了防止惡意注冊,在登錄頁面加了驗證碼(而且那個驗證碼極度復雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉(zhuǎn)化率。
四、細分用戶族群
分析網(wǎng)站流量這是首要工作,如果是網(wǎng)站建設初期,那么此時的流量分析就只要記住網(wǎng)站登陸搜索引擎后的流量基數(shù)即可。如果是網(wǎng)站建設中期的話,就要記錄網(wǎng)站流量一周的平均值,如果是網(wǎng)站建設后期的話,就要記錄網(wǎng)站流量的階段性波動值!記錄好了流量值之后,就可以很好的計劃出下一步優(yōu)化推廣的流量值了。
網(wǎng)站優(yōu)化數(shù)據(jù)分析方法二:關(guān)鍵詞分析
網(wǎng)站關(guān)鍵詞分析也是網(wǎng)站優(yōu)化的重要工作之一!分析現(xiàn)在網(wǎng)站關(guān)鍵詞的布局,分析網(wǎng)站有流量的關(guān)鍵詞,分析網(wǎng)站還沒有覆蓋的與網(wǎng)站業(yè)務相關(guān)的關(guān)鍵詞,分析出網(wǎng)站主關(guān)鍵詞的排名情況,分析關(guān)鍵詞的設計是否合理。分析頂級關(guān)鍵詞是否占據(jù)了搜索引擎首頁的排名,分析搜索關(guān)鍵詞的質(zhì)量高不高,與網(wǎng)站業(yè)務的相關(guān)度如何?!分析關(guān)鍵詞轉(zhuǎn)化率如何等等。
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0104-02
1 綜述
1.1 簡介
在數(shù)字化時代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務應用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺時,就著手大數(shù)據(jù)治理相關(guān)建設。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應用角度不同,需要降低系統(tǒng)間的集成復雜度。
2 功能設計
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎之上,以實現(xiàn)用戶集成處理、、清理、分析的一個統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實時數(shù)據(jù)、準實時數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應當將數(shù)據(jù)進行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進行實現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時間間隔處理,Spark抽象一個持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個滑動窗口的數(shù)據(jù)進行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計算量、數(shù)據(jù)量、數(shù)據(jù)復雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進行計算,這里不詳細闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應用軟件產(chǎn)生的文件。
針對包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應當先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進行提取,這項工作目前仍依賴技術(shù)員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務,以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通常可以轉(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實現(xiàn),而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結(jié)構(gòu)化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實時數(shù)據(jù)、準實時數(shù)據(jù)。
2.6 準實時數(shù)據(jù)
通常準實時數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持數(shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進行計算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來實現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負載。
2.7 非實時數(shù)據(jù)
非實時數(shù)據(jù)主要應用于支持分析型應用,時效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡、圖計算、數(shù)值擬合等。
非實時數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對關(guān)系型數(shù)據(jù)庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關(guān)系型數(shù)據(jù)庫的優(yōu)點,又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應用于業(yè)務系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時代下,本技術(shù)平臺采用Hadoop Impala來進行實現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優(yōu)化。
3 應用效果
本系統(tǒng)在不同的業(yè)務領(lǐng)域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數(shù)據(jù)倉庫建設,但眾多數(shù)據(jù)質(zhì)量問題嚴重影響了數(shù)據(jù)應用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個方面的實施,以元數(shù)據(jù)、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量平臺為支撐,實現(xiàn)了數(shù)據(jù)管控在50多個分支,60個局,1000余處的全面推廣,實現(xiàn)了全行的覆蓋;管理了120個系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機制的實施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。
4 結(jié)語
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實現(xiàn)技術(shù)的大體設計和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務中能得到很好的應用。
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社會調(diào)查是了解各方面信息的重要途徑之一,社會調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的方法得到的。由于社會調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對于社會調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計學,只對單一題目進行統(tǒng)計學分析,其分析方法主要是基于題型進行處理的,對于題目和題目之間的關(guān)系很少關(guān)心[1]。許多數(shù)據(jù)挖掘算法因為種種限制無法在社會調(diào)查的數(shù)據(jù)分析中得到應用。因為方法的限制,所以現(xiàn)在很多社會調(diào)查只能驗證事先想好的內(nèi)容和假設,很少可以對高維數(shù)據(jù)進行相對復雜的回歸分析處理。
根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學模型,將單選題、多選題和排序題用向量形式進行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當作一個整體,作為后續(xù)算法的基礎。
1 社會調(diào)查數(shù)據(jù)的特點
通常情況下,社會調(diào)查數(shù)據(jù)特點如下。
(1)相關(guān)性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關(guān)性。對于多個樣本而言,個體與個體的特征之間具有相關(guān)性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關(guān)性。因此,由于上述多個原因使得社會調(diào)查數(shù)據(jù)具有了復雜的相關(guān)性,傳統(tǒng)的統(tǒng)計學調(diào)查難以解決這樣的問題。
(2)離散性。因為社會調(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡調(diào)查數(shù)據(jù)庫等方法得到,所以社會調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標示作用,并沒有嚴格的邏輯關(guān)系。
(3)模糊性。社會調(diào)查數(shù)據(jù)當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。
因為由自填式問卷或結(jié)構(gòu)式訪問的方法得到的社會調(diào)查數(shù)據(jù)具有以上特點,所以在實際應用中基于統(tǒng)計學的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等[2]。對于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。
而且利用軟件進行數(shù)據(jù)挖掘時,因為現(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類型和格式要求較高,所以能應用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個合適的社會調(diào)查數(shù)據(jù)的數(shù)學模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運用到其中,使得結(jié)果更準確。
2 社會調(diào)查數(shù)據(jù)的建模
研究中我們發(fā)現(xiàn),三維矩陣可適用于社會調(diào)查數(shù)據(jù)的建模。
2.1 三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2 三維矩陣模型的建立
調(diào)查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的項用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數(shù),。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份調(diào)查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數(shù)),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量表示為一個元素,第2題為多選題選擇“ACE”,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
那么,假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數(shù)學模型,如圖2所示。
在圖2中我們看到,該三維矩陣數(shù)學模型有三個坐標軸,它們分別是題目,人數(shù),選項。題目軸以每一道題為一個單位;人數(shù)軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F(xiàn)等題目選項,其個數(shù)為該調(diào)查問卷中選項最多的題目的選項個數(shù)。
在此基礎之上,這樣的三維矩陣具有以下性質(zhì)。
(1)在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2)在人數(shù)軸中選取對應的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應的人選擇所有題目的信息。
在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數(shù)。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎上進行后續(xù)算法處理。
上述三維矩陣數(shù)學模型具有數(shù)學三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學處理,另外在數(shù)學處理的基礎上,采用超圖理論可以大大豐富了調(diào)查問卷的處理方法。
3 基于超圖算法的調(diào)查問卷分析技術(shù)
超圖是離散數(shù)學中重要的內(nèi)容,是對圖論的推廣[3]。超圖是有限集合的子系統(tǒng),它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領(lǐng)域有廣泛的應用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節(jié)點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節(jié)點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關(guān)聯(lián)規(guī)則表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)則后,設實際中得到的關(guān)聯(lián)規(guī)則的形式為:,前項和后項都是由多個項組成的集合。該文定義一條關(guān)聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點表示關(guān)聯(lián)規(guī)則的前項,有向超邊的尾節(jié)點表示關(guān)聯(lián)規(guī)則的后項。每條有向超邊的頭節(jié)點和尾節(jié)點均可以為多個,如此便成功表示了復合規(guī)則,從而可以使用相關(guān)算法進行冗余規(guī)則檢測。
通過基于有向超圖的冗余規(guī)則檢測就可以將關(guān)聯(lián)規(guī)則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結(jié)果的有效性。
傳統(tǒng)的聚類方法都對原始數(shù)據(jù)計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數(shù)據(jù)有良好的效果,但是對于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因為高維數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實現(xiàn)對高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點表示成超圖的節(jié)點,數(shù)據(jù)點間的關(guān)系用超邊的權(quán)重來表示。然后對超圖進行分割,除去相應的超邊使得權(quán)重大的超邊中的點聚于一個類中,同時使被除去的超邊權(quán)重之和最小。這樣就通過對超圖的分割實現(xiàn)了對數(shù)據(jù)的聚類。具體的算法流程如下。
首先,將數(shù)據(jù)點之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點表示為超圖節(jié)點。如果某幾個數(shù)據(jù)點的支持度大于一定閾值,則它們能構(gòu)成一個頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權(quán)重。
然后,在基礎此上,通過超圖分割實現(xiàn)數(shù)據(jù)的聚類。若設將數(shù)據(jù)分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數(shù)據(jù)分為k類,且每個分割中數(shù)據(jù)都密切相關(guān)為止,同時保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。
一、數(shù)據(jù)統(tǒng)計分析的內(nèi)涵
數(shù)據(jù)分析是指運用一定的分析方法對數(shù)據(jù)進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計分析就是運用統(tǒng)計學的方法對數(shù)據(jù)進行處理。在實際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當?shù)男问奖憩F(xiàn)出來,并最終指導決策的制定。
二、數(shù)據(jù)統(tǒng)計分析的原則
(1)科學性。科學方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計分析作為市場調(diào)研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統(tǒng)性。市場調(diào)研是一個周密策劃、精心組織、科學實施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領(lǐng)域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實用性。市場調(diào)研說到底是為企業(yè)決策服務的,而數(shù)據(jù)統(tǒng)計分析也同樣服務于此,在保證其專業(yè)性和科學性的同時也不能忽略其現(xiàn)實意義。
三、推論性統(tǒng)計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統(tǒng)計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數(shù)學公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數(shù)據(jù)進行分析、計算和歸納。
四、多元統(tǒng)計分析方法
(1)相關(guān)分析。相關(guān)分析是描述兩組變量間的相關(guān)程度和方向的一種常用的統(tǒng)計方法。值得注意的是,事物之間有相關(guān)關(guān)系,不一定是因果關(guān)系,也可能僅僅是伴隨關(guān)系;但如果事物之間有因果關(guān)系,則兩者必然存在相關(guān)關(guān)系。(2)主成分分析。在大部分數(shù)據(jù)統(tǒng)計分析中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標轉(zhuǎn)化為幾個綜合指標的多元統(tǒng)計分析方法,很顯然在一個低維空間識別系統(tǒng)要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數(shù)據(jù)簡單化,它是將具有錯綜復雜關(guān)系的變量綜合為數(shù)量較少的幾個因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時根據(jù)不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調(diào)研中,市場細分是最常見的營銷術(shù)語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內(nèi)部在這種特征上具有相似性。聚類分析就是實現(xiàn)分類的一種多元統(tǒng)計分析方法,它根據(jù)聚類變量將樣本分成相對同質(zhì)的族群。聚類分析的主要優(yōu)點是,對所研究的對象進行了全面的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統(tǒng)計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區(qū)別于聚類分析的地方,而在判別分析中,至少要有一個已經(jīng)明確知道類別的“訓練樣本”,從而利用這個數(shù)據(jù)建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。
參考文獻
學生每一個學習行為的背后,都是有目的、有價值、有意義的。簡言之,學生自己要真正認識到這種學習是有用的,哪怕僅僅是因為有趣、好玩,才能激發(fā)學生進行相關(guān)學習的愿望和興趣。對于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學生問一個“為什么”,問題不必明確提出,但一定要把相關(guān)信息告訴學生,引發(fā)學生強烈的認知沖突,才會產(chǎn)生進行數(shù)據(jù)收集、整理與分析的欲望,才會使他們認識到學習數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。
以二年級上冊“統(tǒng)計”一課的學習為例,學生首次接觸“統(tǒng)計”的相關(guān)內(nèi)容。在學生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計最喜歡的動物”,以統(tǒng)計圖形式呈現(xiàn)出喜歡四種動物(小貓、小狗、小兔、烏龜)的學生的人數(shù),并提供了3道題目,但教材始終沒有告訴學生,“為什么我要學習這個知識”、“為什么我要進行數(shù)據(jù)分析”。此時,對這一問題的提出與引導學生思考,只能由教師在不動聲色中完成。所以,教學時,利用學生愛吃零食的特點,我調(diào)整了教學思路,首先,我征得學生同意,打算用班上賣廢品的錢給學生買糖吃。此舉得到學生們的一致歡迎;其次,我要求5個小組長提前去學校門口的超市,了解糖塊的種類與價格,并告知其他同學;再次,我要求班委成員負責了解班上每一名同學的需求并進行分類、計算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費;再次,將買來的糖帶入教室,上課,進行相關(guān)的數(shù)據(jù)整理與分析;最后,完成全部教學任務后,吃糖。
當我將此想法與實際的授課過程講給其他老師聽時,有老師笑談“孩子們學習的動力就是吃糖”。我不否認這是學生們積極參與教學活動的動力之一,因為事先我有告訴學生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認的是,對于二年級的學生來說,為了達成“每個同學都能吃到自己想吃的糖”這一目標,要在活動的每一個步驟都進行相關(guān)數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務。簡言之,等于我們告訴學生,“為什么要進行數(shù)據(jù)分析”、“只因為我們需要達成一定的目的”,并且,活動的每一步驟的數(shù)據(jù)分析都有學生親自進行,并明確知曉這樣做的原因——當然不是教師的程式化的要求,這就使得學生的數(shù)據(jù)分析工作是主動的,各成員之間是相互合作的,既使學生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強學生數(shù)據(jù)分析觀念的同時,培養(yǎng)了學生主動學習與合作的精神。
二、挖掘數(shù)據(jù)中蘊藏的深層信息,體驗數(shù)據(jù)分析的應用價值
[中圖分類號]G819[文獻標識碼]A[文章編號]1005-6432(2013)46-0099-02
1引言
探索性數(shù)據(jù)分析方法是一種新型的統(tǒng)計分析手段,近年來在許多行業(yè)得到了廣泛的應用,并取得了明顯成效。其強調(diào)了數(shù)據(jù)本身的價值,可以更加客觀地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到數(shù)據(jù)的穩(wěn)健耐抗模式,從而發(fā)掘出數(shù)據(jù)的隱藏信息。本文從職工平均工資的實際數(shù)據(jù)出發(fā),利用探索性數(shù)據(jù)分析中的工具,直觀地探索華東六省職工平均工資的規(guī)律,挖掘數(shù)據(jù)特征和有價值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業(yè)、事業(yè)、機關(guān)單位的職工在一定時期內(nèi)平均每人所得的貨幣工資額。它表明一定時期職工工資收入的高低程度,是反映職工工資水平的主要指標。由于中國城市眾多,各地經(jīng)濟發(fā)展水平有較大的差異,生活水平和生活質(zhì)量也各有不同,為了縮小地理差異對研究數(shù)據(jù)的影響,得到較為準確和有意義的結(jié)果,這里只選用了2010年華東地區(qū)六個省的職工平均工資運用探索性數(shù)據(jù)分析方法做初步的描述性分析和研究,每個省選取了9個大城市。
為了更加簡單直觀地對比各個省市的數(shù)據(jù),我們繪制了箱線圖,如圖1所示。對華東六省進行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個別城市職工平均工資與同省其他城市相比特別大,其他幾省的數(shù)據(jù)就不存在離群值。對于四分展布,可以得到大小關(guān)系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對比各個省的中位數(shù),可以發(fā)現(xiàn)江蘇省平均職工工資水平最大,江西省最小,從經(jīng)濟上反映了地區(qū)經(jīng)濟發(fā)展差異,江蘇緊靠上海,處在華東的中心,交通系統(tǒng)發(fā)達,同時,長三角江蘇占了大部分,其靠海的地理優(yōu)勢給它帶來了更多的經(jīng)濟發(fā)展機會,導致了職工工資水平中位數(shù)相差如此大。
同時可以直觀地看出安徽省數(shù)據(jù)對稱性最好,除了福建省數(shù)據(jù)呈現(xiàn)左偏趨勢外,其他省都呈現(xiàn)右偏的趨勢,其中江西省的數(shù)據(jù)最為嚴重,主要是受到了兩個離群值的影響,為了使其更對稱,我們運用探索性數(shù)據(jù)分析方法中的對稱變換方法,在經(jīng)過R軟件的計算后,得到職工平均工資的對稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對稱性變換圖
進行對稱性變換后,運用R軟件擬合曲線,得到:
由圖3可以看出,在進行對稱匹配變換之后,江西省的兩個離群值消失了,數(shù)據(jù)變得更加集中,趨勢也更加易于分析和研究。這樣的數(shù)據(jù)會給分析帶來便利,更加清晰和直觀地表現(xiàn)出數(shù)據(jù)的本質(zhì)特征。
圖3江西省2010年職工平均工資水平匹配
3結(jié)論
使用探索性數(shù)據(jù)分析技術(shù)具有耐抗性和穩(wěn)健性的特點,通過箱線圖可以簡單直觀地看出數(shù)據(jù)間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數(shù)據(jù)較為分散,同時數(shù)據(jù)比較對稱,而江西省的數(shù)據(jù)有著極大的右偏性,在經(jīng)過了對稱、匹配變換后,仍然與華東地區(qū)其他省的數(shù)據(jù)有較大的差異,可能是由離群值太大造成的。
參考文獻:
所謂的交通事故預測是根據(jù)已發(fā)生交通事故的數(shù)據(jù)進行統(tǒng)計,在對事故原因進行分析的基礎上,探尋事故規(guī)律,以針對交通事故做出更為合理的推測和判斷。當前,交通事故預測方法相對較為多樣,如回歸分析、時間序列等,雖然都能對交通事故做出科學合理的決策性指導,但各具優(yōu)缺點和適用條件,因而有關(guān)人員應在遵循交通事故預測思想的基礎上,對幾種主要預測方法進行分析,確保交通部門人員能夠根據(jù)實際情況而合理選擇交通事故預測方法。
1 交通事故預測思想
交通事故對人類造成的危害相對較大,對人類產(chǎn)生嚴重的威脅。從我國發(fā)展實踐中可知,交通事故在一定程度上制約我國經(jīng)濟的發(fā)展進程,尤其對人類社會福利、醫(yī)療保險等方面的影響較大。據(jù)不完全統(tǒng)計,2015年全年間,我國交通事故約為10597358起,死亡人數(shù)約為68432人,財產(chǎn)損失高達10億元以上。可見,交通事故威脅隱患相對較大。交通事故預測能夠根據(jù)已發(fā)生交通事故進行統(tǒng)計、分析、處理,在遵循規(guī)律的基礎上,對未來可能發(fā)生的交通事故作出科學合理的預測,該預測結(jié)果以科學邏輯推斷為基礎。就交通事故原因而言,道路環(huán)境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測,我國交通部門人員能夠?qū)煌ㄊ鹿首鞒隹茖W合理的判斷和制定有效的預防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預測方法
2.1 回歸分析預測法
回歸分析預測法在交通事故預測中的有效應用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預測法,通過對自變量和因變量之間關(guān)系問題的探討,對因變量趨勢加以預測,其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數(shù)。
其次,英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究,提出非線性回歸分析預測法。對此,他建立冪函數(shù)曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數(shù);N是機動車保有量;P為人口數(shù)量。
回歸分析預測法能夠?qū)煌ㄊ鹿视绊懸蛩亻g的因果關(guān)系加以反應,以達到預測結(jié)果的目的,但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數(shù)據(jù)波動小和極具規(guī)律性的預測實踐中。
2.2 時間序列預測法
時間序列預測法主要有兩種類型,分別為移動平均預測法和指數(shù)平滑預測法。首先,移動平均預測法是比較簡單的平滑預測技術(shù),通過計算項數(shù)時序平均值,對長期發(fā)展趨勢變化做出科學合理的預測。內(nèi)蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析,對交通事故加以預測。其次,指數(shù)平滑預測法的通式為:
Ft+1=αxt+(1-α)Ft
時間序列預測法屬于定量預測方法,擬合效果良好,但在短期預測中,受諸多因素干擾影響較大,使預測結(jié)果具有不確定性。該方法適用于國內(nèi)縣區(qū)等區(qū)域范圍較小的預測實踐中。
2.3 灰色馬爾科夫鏈預測法
道路交通系統(tǒng)屬于動態(tài)時變系統(tǒng),但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下,相關(guān)人員能夠通過灰色預測模型,做出短期預測,以縮小預測區(qū)間,提高預測效率。云南交通職業(yè)技術(shù)學院王剛對灰色馬爾科夫鏈預測法而建立模型,對交通事故進行預測,根據(jù)實踐可知,基于該模型的預測精確度十分高,取得良好的預測成效。
灰色預測以短期預測為主,馬爾科夫鏈預測以長期預測為主,通過二者結(jié)合,可提高預測精度,但如若數(shù)據(jù)變化大,則灰色模型的吻合度和精度下降。借助該預測方法,能夠?qū)顟B(tài)下的轉(zhuǎn)移規(guī)律加以預測,并揭示交通事故時序變化總趨勢。
2.4 貝葉斯預測法
貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應的時間較少,其應急策略不足,造成重大交通安全隱患。貝葉斯預測法能夠?qū)ξ磥斫煌ㄊ鹿拾l(fā)生的可能性進行預測。該預測方法應用中,必須建立在交通事故和車速有關(guān)聯(lián)的基礎之上,有助于交通部門人員更好開展數(shù)據(jù)統(tǒng)計和交通流進行觀測。
2.5 灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡預測法
就灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡預測法而言,哈爾濱工業(yè)大學交通研究所和中國城市規(guī)劃設計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進行進一步解析,并建立合理的模型理論和確定預測指標,對未來交通事故發(fā)展趨勢加以預測。該預測方法的適應性較強,在我國交通事故預測工作實踐中有著較為有效的運用,可解決傳統(tǒng)預測方法難以解決的問題,建立在BP網(wǎng)絡基礎之上,并利用計算機開展輔計算活動。
2.6 多層遞階預測方法
多層遞階預測方法能夠規(guī)避傳統(tǒng)統(tǒng)計預測方法的缺陷,以現(xiàn)代控制理論“系統(tǒng)辨識”為重要基礎,對對象的未來狀態(tài)做科學的預測。動態(tài)系統(tǒng)數(shù)學模型為:y(k)=。在交通事故預測中,多層遞階預測方法是大數(shù)據(jù)時代背景下的重要處理方式,有利于增強預測效果。
3 結(jié)論
交通部門對交通事故進行合理的預測,有利于提高道路交通系統(tǒng)的安全系數(shù)。所以,相關(guān)人員合理選擇交通事故預測方法具有必要性,為規(guī)避交通事故而做出科學合理的決策。目前,使用較多的交通事故預測方法主要有:回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡預測法等,因其各具優(yōu)缺點和適用條件,因而要求相關(guān)人員必須對系列問題進行深入探究,確保公路交通事故預測的有效性。
參考文獻
[1]李景文,高桂清.交通事故預測分析[J].中國安全科學學報,2015,6(01):20-23.
[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機,2013,19(05):7-10.
一、分壓電路特性研究及參數(shù)的變化
首先,用1000Ω滑線變阻作分壓器,負載電阻用1000Ω(K=1),測出滑線電阻滑動端的位置參數(shù)X和U/Umax分壓比,并作出U/Umax的關(guān)系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負載電阻(K=0.1),測出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序?qū)崿F(xiàn)分壓電路實驗數(shù)據(jù)的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由實驗可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個特點:第一,不論R0的大小,負載RZ的電壓調(diào)節(jié)范圍均可從0■E;第二,K越小電壓調(diào)節(jié)越不均勻,曲線線性程度越差,細調(diào)程度較差;第三,K越大電壓調(diào)節(jié)越均勻,因此要電壓U在0到Umax整個范圍內(nèi)均勻變化,則取K>1比較合適。
■
圖1 不同K值的分壓特性曲線
二、制流電路特性研究及參數(shù)的變化
首先,用1000Ω滑線變阻作制流器,負載電阻用100Ω(K=0.1),測出滑線電阻滑動端的位置參數(shù)X和分壓比I/Imax,并作出I/Imax-x的關(guān)系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負載電阻(K=0.02),測出X和I/Imax,記錄不同的K值,并作出關(guān)系曲線,在Matlab軟件中編寫下列程序?qū)崿F(xiàn)制流電路實驗數(shù)據(jù)的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47頁)
■
圖2 不同值的制流特性曲線
圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個特點:第一,K越大電流調(diào)節(jié)范圍越小;電流調(diào)節(jié)越均勻,曲線線性程度較好;第二,K(K≥1)時調(diào)節(jié)的線性較好;第三,K較小時(即R0>RZ),電流調(diào)節(jié)范圍大,電流調(diào)節(jié)越不均勻,曲線線性程度越差,細調(diào)程度較差;第四,不論R0大小如何,負載RZ上通過的電流都不可能為零。第五,制流電路適用于負載電阻較小,功耗較大,電壓調(diào)節(jié)范圍較小的場合。
綜上所述,當負載電阻較大時,要求調(diào)節(jié)范圍較寬時宜采用分壓電路。相反,在負載電阻較小,功耗較大且調(diào)節(jié)范圍不太大時,選用制流電路較好。
參考文獻:
[1]陳玉林,李傳起.大學物理實驗[M].北京:科學出版社,2007:186-190.
統(tǒng)計應用作為數(shù)學的重要領(lǐng)域,在大多數(shù)情況下,數(shù)據(jù)被收集并且通過一定方法在系統(tǒng)中存儲,重要策略被記錄,并應用于其他領(lǐng)域。隨著數(shù)據(jù)恢復方法和統(tǒng)計分析方法的逐步集成,大數(shù)據(jù)的統(tǒng)計數(shù)據(jù)分析方法在財務管理中變得越來越重要。面對當今全球化的壓力和經(jīng)濟市場的激烈競爭,使用財務管理的統(tǒng)計整合是提高有效管理效率,優(yōu)化資源分配和科學行為的有效步驟。通過市場經(jīng)濟的發(fā)展和經(jīng)濟水平的不斷提高,數(shù)據(jù)集成和財務管理水平運用了大數(shù)據(jù)的統(tǒng)計分析。在建立大規(guī)模數(shù)據(jù)的經(jīng)濟增長政策時,技術(shù)在宏觀經(jīng)濟研究中起著重要作用。大數(shù)據(jù)統(tǒng)計分析的作用正在增加,其在管理中的用途正在進一步擴大。顯然,加強對經(jīng)濟發(fā)展大數(shù)據(jù)統(tǒng)計分析技術(shù)的使用對促進經(jīng)濟增長和提高管理效率非常重要。
一、大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域運用的意義
為響應市場環(huán)境和公司治理內(nèi)容的變化而促進使用公司治理統(tǒng)計數(shù)據(jù)的需求主要體現(xiàn)在兩個方面:
(一)宏觀經(jīng)濟方面發(fā)展有若干規(guī)律。為了尋找有關(guān)經(jīng)濟發(fā)展的規(guī)律,強大的數(shù)據(jù)分析技術(shù)在宏觀經(jīng)濟學中的應用非常重要。一方面,大數(shù)據(jù)分析統(tǒng)計數(shù)據(jù)用于從宏觀經(jīng)濟發(fā)展行業(yè)收集數(shù)據(jù),對相關(guān)行業(yè)信息進行實證分析,并調(diào)查行業(yè)發(fā)展和行業(yè)問題。使用SPS,Stata和其他數(shù)據(jù)分析軟件,中國擁有最重要的發(fā)展法;同時,發(fā)現(xiàn)工業(yè)發(fā)展規(guī)律,規(guī)范工業(yè)發(fā)展,開辟新的經(jīng)濟發(fā)展方式也很重要[1]。
(二)企業(yè)經(jīng)營管理方面1.提升企業(yè)競爭力的必然要求當前,業(yè)務發(fā)展的競爭越來越激烈。競爭壓力主要歸因于國內(nèi)市場經(jīng)濟帶來的經(jīng)濟化以及國內(nèi)市場競爭激烈加入的外國公司的影響。公司必須面對激烈的市場競爭。大眾市場信息的統(tǒng)計分析將調(diào)整生產(chǎn)和管理策略,并為業(yè)務發(fā)展的戰(zhàn)略調(diào)整作出有效的決策。2.提升企業(yè)管理水平的必然要求一方面,諸如運營管理、財務管理、風險管理和企業(yè)資源管理等相關(guān)任務變得越來越復雜。需要統(tǒng)計分析方法來對豐富的業(yè)務操作信息進行分類和匯總,為業(yè)務管理決策提供有效的信息。同時,企業(yè)需要不斷滿足產(chǎn)品和服務生產(chǎn)方向的政治要求。由于需要與相關(guān)部門合作,例如運營財務管理、規(guī)避財務風險,因此需要建立相關(guān)部門的統(tǒng)計數(shù)據(jù),以提高決策效率[2]。
二、大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域的運用
利用大數(shù)據(jù)的統(tǒng)計數(shù)據(jù)分析技術(shù)研究宏觀經(jīng)濟發(fā)展政策,對促進行業(yè)發(fā)展至關(guān)重要。另一方面,如何獲取有關(guān)復雜數(shù)據(jù)管理的重要信息,在業(yè)務流程和管理方面為公司制定有效的決策是重中之重。關(guān)鍵在于掌握財務管理的大數(shù)據(jù)分析方法,并使用大數(shù)據(jù)統(tǒng)計分析技術(shù)來分類和提供業(yè)務流程管理,隱藏的規(guī)則以及來自異常數(shù)據(jù)點的大量信息。為了應對突況,管理人員需要制訂正確的決策計劃。本文主要討論宏觀經(jīng)濟應用管理領(lǐng)域的統(tǒng)計數(shù)據(jù)分析方法,以及業(yè)務管理、財務管理、風險管理和管理的六個方面。如:
(一)宏觀經(jīng)濟方面關(guān)于宏觀經(jīng)濟產(chǎn)業(yè)的運作和發(fā)展有若干規(guī)律。為了找到宏觀經(jīng)濟發(fā)展方法,統(tǒng)計分析技術(shù)對于穩(wěn)定經(jīng)濟增長和調(diào)查潛在的經(jīng)濟危機很重要。當前,不僅學者,業(yè)務經(jīng)理也開始了解計算機技術(shù)的使用,并開始通過統(tǒng)計分析來發(fā)現(xiàn)工業(yè)發(fā)展中的若干問題,學習工業(yè)發(fā)展的原理。為了找出答案,我們選擇了相關(guān)的影響因素并采取了相應的行動,采取措施提高工業(yè)發(fā)展效率。
(二)企業(yè)運營管理方面通常,在日常工作程序和工作相關(guān)領(lǐng)域中存在某些特定的業(yè)務管理和操作規(guī)則。另一方面,通過將統(tǒng)計信息應用于業(yè)務的運營和管理,公司可以通過分析大數(shù)據(jù)的統(tǒng)計信息來獲得規(guī)律。這將幫助公司節(jié)省一些資源,避免重復的任務并節(jié)省公司的業(yè)務資源。如果該政策是從科學的統(tǒng)計評估階段得出的,則情況與正常情況不同的企業(yè)高管應仔細考慮潛在的風險。
(三)企業(yè)營銷管理方面企業(yè)需要建立大型數(shù)據(jù)管理系統(tǒng)來收集有關(guān)企業(yè)提供的產(chǎn)品或服務的市場交易信息。因此,消費者的熱點必須與受管理的信息系統(tǒng)對齊,以使其隱藏在協(xié)同交易信息中。確定消費者對需求的偏好并確定消費者需求。公司的主要產(chǎn)品和服務根據(jù)消費者的喜好運作,可以滿足消費者的需求,替代市場上的非反應性產(chǎn)品和服務。同時,開發(fā)新產(chǎn)品和服務企業(yè)領(lǐng)導者可以提供有效的決策信息,并為消費者創(chuàng)建新的熱點[3]。
(四)企業(yè)財務管理方面應用管理統(tǒng)計信息。它通過審查有關(guān)生產(chǎn)過程和運營的統(tǒng)計數(shù)據(jù)(尤其是財務數(shù)據(jù)),進行定性和定量分析,幫助評估相關(guān)活動,例如商業(yè)投資。財務管理是開展業(yè)務必不可少的部分,這對于減輕公司的財務風險和提高公司資源分配的效率至關(guān)重要。通過統(tǒng)計分析對商業(yè)經(jīng)濟數(shù)據(jù)進行分類和分析,可以為高管、投資者和其他相關(guān)利益相關(guān)者提供有效的決策信息。
(五)企業(yè)人力資源管理方面將統(tǒng)計應用于公司的人力資源管理,并使用統(tǒng)計分析技術(shù)結(jié)合公司業(yè)務管理部門的特征,選擇適當?shù)姆椒▉硖岣咝省H肆Y源管理很重要,人才基本上是企業(yè)的無形資產(chǎn),在部門保留相關(guān)的人力資源是業(yè)務發(fā)展的關(guān)鍵。回歸站評估法用于預測企業(yè)發(fā)展的人力資源需求,動態(tài)分析法用于根據(jù)狀態(tài)預測人力資源的變化。將這兩個方面結(jié)合起來可以大大提高業(yè)務資源的效率。
(六)企業(yè)風險管理方面使用統(tǒng)計分析技術(shù)對業(yè)務流程中的大量業(yè)務信息進行分類和分析,發(fā)現(xiàn)隱藏的規(guī)則和數(shù)據(jù)差異。重要的是,業(yè)務主管需要進行預測,做出正確的決定,解決事件并發(fā)現(xiàn)潛在危險。意思是如果統(tǒng)計數(shù)據(jù)分析有些奇怪,則需要找出業(yè)務流程中具有的某些規(guī)則,因此業(yè)務主管需要尋找更多異常條件,尤其是財務管理,要注意關(guān)注狀態(tài)的變化。另一方面,對公司財務信息進行統(tǒng)計分析是公司規(guī)避財務風險的有效手段之一。
三、完善大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟
管理領(lǐng)域運用的措施在本文中,我們將了解如何從六個方面分析大數(shù)據(jù)的統(tǒng)計數(shù)據(jù):宏觀經(jīng)濟活動、業(yè)務管理、風險管理、財務管理、資源管理和財務管理人員。這被認為是財務管理數(shù)據(jù)大規(guī)模統(tǒng)計方法的一種改進。必須在三個方面進行現(xiàn)場應用:
(一)社會宏觀經(jīng)濟層面盡管存在宏觀經(jīng)濟法則,但根據(jù)過去的經(jīng)驗,由于缺乏安全可靠的數(shù)據(jù)和分析方法,宏觀經(jīng)濟法則的分析則一直被認為是偽科學。大數(shù)據(jù)分析技術(shù)提供了探索宏觀經(jīng)濟法則的機會,大數(shù)據(jù)技術(shù)使用數(shù)據(jù)創(chuàng)建系統(tǒng),而使用許多信息技術(shù)的科學分析是宏觀經(jīng)濟法研究中的重要一步。特別是,某些行業(yè)使用行業(yè)信息和對經(jīng)濟趨勢預測的全面分析來幫助識別和克服復雜的工業(yè)發(fā)展挑戰(zhàn),可以提高宏觀經(jīng)濟發(fā)展效率。
(二)企業(yè)經(jīng)營管理層面在公司上載和數(shù)據(jù)受限的情況下,企業(yè)很難優(yōu)化管理功能以提高性能[2]。由于業(yè)務經(jīng)理的管理理念和管理水平受到限制,因此很難斷定業(yè)務開發(fā)操作和管理流程是否存在問題。統(tǒng)計分析技術(shù)可用于計算和評估每個關(guān)鍵決策或業(yè)務戰(zhàn)略適合性的有效性。如果由于大數(shù)據(jù)分析技術(shù)而導致預期的數(shù)據(jù)銷量存在矛盾,該公司可以調(diào)整其總體戰(zhàn)略并進行業(yè)務變更以優(yōu)化管理理念。
(三)行業(yè)與行業(yè)之間存在著一定的鴻溝無論是快速消費品行業(yè)、食品行業(yè)還是大型公司,其經(jīng)營理念和經(jīng)濟結(jié)構(gòu)在公司治理方面都存在根本差異。統(tǒng)計數(shù)據(jù)分析技術(shù)使公司能夠了解整個行業(yè)的消費者需求的性質(zhì),分析社會經(jīng)濟狀況,能夠了解共同的業(yè)務條件和業(yè)務發(fā)展情況,并優(yōu)化或區(qū)分劣質(zhì)產(chǎn)品。在某些情況下,此更改是提高產(chǎn)品價格的高級更改,如果消耗量和消耗品減少,則可以降低產(chǎn)品價格。產(chǎn)品必須能夠升級以滿足顧客需求。產(chǎn)品行業(yè)、食品行業(yè)或大型行業(yè)具有不同的經(jīng)營理念和財務結(jié)構(gòu),還在進行公司管理。但是,各個行業(yè)的業(yè)務方向取決于消費者的需求。換句話說,公司開發(fā)了產(chǎn)品的功能并使產(chǎn)品的功能適應消費者的需求。對于公司而言,通過優(yōu)化生產(chǎn)結(jié)構(gòu)并提供更多定價和功能來說服更多消費者也很重要。
(四)企業(yè)財務管理層面財務管理貫穿公司治理的整個過程。公司財務管理非常有效,但是存在諸如財務管理的巨大風險之類的問題。對公司財務信息進行統(tǒng)計分析是防范財務風險的有效手段之一。公司需要管理其日常收入和支出,并進行大規(guī)模會計處理。企業(yè)可以使用大數(shù)據(jù)分析技術(shù)來監(jiān)測財務管理功能并確保標準化業(yè)務的財務安全。利用統(tǒng)計分析技術(shù)和大數(shù)據(jù),公司可以預測潛在的市場和行業(yè)風險,以提供最佳解決方案,還可以提供分析大數(shù)據(jù)的方法,可以跟蹤異常并快速發(fā)現(xiàn)異常。
四、結(jié)語
本文首先從宏觀經(jīng)濟方面、企業(yè)經(jīng)營管理方面等兩個方面對大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域運用的意義進行了分析,然后從宏觀經(jīng)濟方面、企業(yè)運營管理方面、企業(yè)營銷管理方面、企業(yè)財務管理方面、企業(yè)人力資源管理方面以及企業(yè)風險管理方面等方面對大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域的運用進行了分析,最后從社會宏觀經(jīng)濟層面、企業(yè)經(jīng)營管理層面、行業(yè)與行業(yè)之間存在著一定的鴻溝以及企業(yè)財務管理層面等方面提出了完善大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域運用的措施。大數(shù)據(jù)分析技術(shù)被廣泛用于宏觀經(jīng)濟預測、業(yè)務管理和公司風險管理,它在優(yōu)化公司治理和運營結(jié)構(gòu),有效改善公司治理以及提高公司統(tǒng)一性和核心競爭力等方面發(fā)揮著重要作用,可以使公司在激烈的市場競爭中有一席之地。
【參考文獻】
[1]張琳.大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域中的運用淺析[J].營銷界,2019(38):291-292.
[2]杜珉.大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域中的運用探析[J].山西農(nóng)經(jīng),2019(12):27.
[3]陳雪琴.大數(shù)據(jù)統(tǒng)計分析方法在經(jīng)濟管理領(lǐng)域中的應用[J].山西農(nóng)經(jīng),2019(5):37.
一、數(shù)據(jù)缺失的程度與機制
數(shù)據(jù)缺失的程度、機制均影響處理方法的選擇。方法不適當也會帶來有偏的參數(shù)估計M1、方差估計與統(tǒng)計檢驗,甚至影響數(shù)據(jù)分析效用。
(一)數(shù)據(jù)缺失的程度
借助某一變量上數(shù)據(jù)缺失的比率X描述數(shù)據(jù)缺失的程度。缺失比率X如何應用方面,當X<10%時應當保留這些賊并對其哳搬的艦曾建議,當X>15%時可以考慮刪除采用刪除法;MRaymond與Roberts則認為X>40%時才考慮刪除這些數(shù)據(jù)。
(二)缺失機制
缺失數(shù)據(jù)與諸多變量等相關(guān),處理方法的性質(zhì)依賴這些相依關(guān)系的特征。為論述方便,記全部變量Y觀測值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨立無關(guān),則缺失數(shù)據(jù)為完全隨機缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時缺失值是總體的一個簡單隨機抽樣。如果缺失值僅與Yobs相關(guān)聯(lián)、與Ymis相互獨立,則是隨機缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關(guān)系,則稱非隨機缺失(NMAR,notmissingatrandom),是不可忽略的。
二、單一借補
單一借補用一個借補值替代全部缺失值,后用完全數(shù)據(jù)方法分析數(shù)據(jù)。單一借補是缺失數(shù)據(jù)處理中最通用方法之一,有多種方法。
(一)推理借補與最近鄰借補
根據(jù)已有信息推斷缺失數(shù)值,該方法簡單易行,可提供準確借補值,或者近似準確借補值,同等情況下可優(yōu)先進行推理借補。例,信息收集時已提供有姐弟信息的某被試“獨生子女”一項空著,可推斷為“否”。最近鄰借補選用與缺失數(shù)據(jù)提供者相類似的被試數(shù)據(jù)替代該缺失值。按照匹配變量找到一個以缺失數(shù)據(jù)提供者類似的被試時,可還用例如歐式距離等來度量類似程度。
(二)均值借法
均值借補用已得數(shù)據(jù)的均值替代全部缺失值。借補值易均值形成尖峰,嚴重扭曲數(shù)據(jù)分布。當數(shù) 據(jù)缺失非MACR時,將低估統(tǒng)計量方差,導致參數(shù)估計偏差,且不適用需方差的復雜分析。
(三)回歸借補
回歸借補可分為線性回歸借補,非參數(shù)回歸借補等。本文主要關(guān)注線性回歸借補,用Yk關(guān)于數(shù)據(jù)完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時有一次或多次迭代之分。多次迭代中,預測變量以逐步進人模型,獲得預測力最佳、最精簡的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數(shù)變化不顯著。是類別變量時,則考慮進行變換,進行線性回歸。同時,我們還應注意到利用嚴格的回歸方程進行預測,易人為增大變量之間的關(guān)系。多數(shù)情況下,教育學、心理學討論的變量大多都不是相互獨立的。選擇該方法時,須考慮當預測變量與變量Y是否存在高度的相關(guān)關(guān)系。其構(gòu)造借補值的邏輯清晰,相對客觀。該方法能得到合乎邏輯的結(jié)果,尤其滿足正態(tài)分布時。數(shù)據(jù)模擬實驗表明,方法加精確。
三、多重借補
多重借補(multipleimputation,MI)基于缺失值的預測分布或統(tǒng)計模型的方法:提供多個借補值依次替代各個缺失值、構(gòu)造個“完全數(shù)據(jù)”,121,191211后運用完全數(shù)據(jù)統(tǒng)計方法分別分析多個數(shù)據(jù)集;分別得到數(shù)個分析結(jié)果,擬合這多個結(jié)果,獲得對缺失值的估計等,甚至是置信區(qū)間、P值。MI具備例如連續(xù)性的優(yōu)良統(tǒng)計性質(zhì)。
(一)回歸預測法與傾向得分法
回歸借補基于已有數(shù)據(jù)建立回歸模型、嵌入借補值。先確定觀察協(xié)變量,傾向得分法賦予一個條件概率。即對各Y產(chǎn)生一個觀測值缺失概率,并以傾向得分表示。依據(jù)傾向得分對數(shù)據(jù)分組,組內(nèi)進行近似貝葉斯Bootstrap(ABB)借補。
(二)似然的方法
1.極大似然估計
從理論上來看,極大似然法(MaximumLikelihood,ML)至今仍是參數(shù)點估計中的重要方法。既定模型下缺失值的諸多估計均可基于似然函數(shù)進行。ML利用總體數(shù)量特征的分布函數(shù)等,建立未知參數(shù)的估計量。將Y作為未知變量0,構(gòu)造關(guān)于e的似然函數(shù),后求的參數(shù)的極大似然估計量,甚至在參數(shù)空間內(nèi)的置信區(qū)間,或者置信區(qū)域。
參數(shù)極大似然估計量(MLE)具有不變性,推廣至多元變量時該優(yōu)良性質(zhì)亦成立。這恰能滿足實際研究需要。基于其漸進最優(yōu)性質(zhì)等,ML成為參數(shù)估計的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。
2.期望極大化算法
期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來計算基于不完全數(shù)據(jù)的MLE15。當由于觀測過程局限帶來數(shù)據(jù)部分缺失時,或似然估計因似然函數(shù)不是解析函數(shù)而無效時可選用該方法。EM是一種迭代算法,每次迭代似然函數(shù)值都將有所增加,進而保證參數(shù)估計值收斂到一個局部極大值。此外,EM可自動實現(xiàn)參數(shù)約束。基于軟件數(shù)據(jù)模擬表明X<30%時EM算法可得到比較好的結(jié)果。
3.MCMC方法
當缺失值分散在多個變量時,回歸法基于對回歸系數(shù)的估計獲得借補值。復雜缺失模型中,回歸系數(shù)的估算又依賴于借補值。這里似乎存在某種循環(huán)論證痕跡。此時,可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進行蒙特卡洛積分,可基于無后效性隨機過程探討數(shù)量關(guān)系、預測變量,還可有包括0出1?抽樣等多種具體算法。基于多元抽樣MCMC有諸多優(yōu)點,足夠長的時間使得雅過程驗時,MCMC可得卿常麵的結(jié)果。171MCMC是與具體的模型結(jié)合的,自身有不少擴展方法,且不同MCMC方法對缺失數(shù)據(jù)的參數(shù)估計之間存在差異。不過,X<30%時MCMC方法得到結(jié)果與完全數(shù)據(jù)時擬和較好。這些研究支持MCMC是處理缺失數(shù)據(jù)的有效方法,軟件包SPSS17.0等均收人該方法。
四、不處理
借補值是缺失數(shù)據(jù)的主觀估計值。引人的主觀值可能改變原信息系統(tǒng),甚至帶進新噪音、導致分析錯誤。不處理確保了原有信息不變,并進行分析,其主要包含貝葉斯網(wǎng)與人工神經(jīng)網(wǎng)絡。不過,后者的具體應用仍有限、待進一步探索與實證。研究開始關(guān)注神經(jīng)網(wǎng)絡在心理學中的具體應用。
(一)貝葉斯網(wǎng)
貝葉斯網(wǎng)絡(BayesianNetworks)是一個有向無圈圖,W能描述不確定性因果關(guān)聯(lián)的模型。該有向無圈圖帶有概率注解,能夠表示隨機變量的因果關(guān)系與概率關(guān)系,網(wǎng)絡的拓撲結(jié)構(gòu)能夠表明如何從局部的概率分布獲得完全的聯(lián)合概率分布。分析缺失數(shù)據(jù)時,貝葉斯網(wǎng)將結(jié)合先驗知識與樣本數(shù)據(jù)對數(shù)值計算進行推理,得到最佳值。其最大程度利用數(shù)據(jù)蘊含的信息,是具有魯棒性的方法。
缺失數(shù)據(jù)下學習貝葉斯網(wǎng)有各類算法,不少算法是通過對含缺失數(shù)據(jù)的信息系統(tǒng)完備化得到所需統(tǒng)計因子,最終將問題轉(zhuǎn)化為完全數(shù)據(jù)下學習貝葉斯的網(wǎng)的問題。例如,結(jié)構(gòu)EM(StructureEMAlgorithm)通過EM算法獲得期望統(tǒng)計因子。數(shù)據(jù)非隨機缺失可以通過引人隱藏變量轉(zhuǎn)化為隨機缺失問題,m似乎可以僅討論隨機缺失情況下算法。隨著研究的推進,新的、優(yōu)良的算法相繼涌現(xiàn),并得到模擬實驗的支持。例如,數(shù)據(jù)缺失下貝葉斯網(wǎng)絡增量學習算法IBN-M。甚至穩(wěn)健的貝葉斯方法能夠適用于含缺失數(shù)據(jù)的結(jié)構(gòu)方程分析中,此時的結(jié)構(gòu)方程模型選擇固定方差。
建構(gòu)貝葉斯網(wǎng)可由專家人工建構(gòu)。其中,因果關(guān)系、網(wǎng)絡結(jié)構(gòu)是不可或缺的。這需對分析領(lǐng)域有相應了解,至少對變量間關(guān)系較清楚。在心理學等領(lǐng)域中應用尚待深入研究,該方法運用前景令人期待。
(二)貝葉斯網(wǎng)適用軟件能夠?qū)崿F(xiàn)貝葉斯網(wǎng)的軟件包不少。Netica是最重要軟件之一,可免費下載功能有限的版本。專門進行數(shù)值計算的語言Matlab,其編程量較少、調(diào)試程序方便、呈現(xiàn)學習所得結(jié)構(gòu)也不繁瑣,國內(nèi)文獻也更多地涉及Matlab。BNTtolkit是基于Matlab開發(fā)的,提供不少基礎函數(shù)庫,能夠進行參數(shù)學習與結(jié)構(gòu)學習,且完全免費。缺乏圖形用戶界面、無法將基本函數(shù)集成相應系統(tǒng)是其“硬傷”。
五、結(jié)論與討論
實際應用中,刪法“浪費”不少數(shù)據(jù),統(tǒng)計力低下,盡量選用其它方法。當滿足MAR缺失機制且人在10%時,對刪法可運用對有多個項目的量表的數(shù)據(jù)處理。當滿足MAR、變量相關(guān)聯(lián),可考慮均值借補。當變量之間高相關(guān)且X>20%Ht,可考慮回歸借補。