緒論:寫作既是個人情感的抒發(fā),也是對學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇生物統(tǒng)計學(xué)數(shù)據(jù)分析范文,希望它們能為您的寫作提供參考和啟發(fā)。
[中圖分類號] G320 [文獻標識碼] B
近年來,隨著全球經(jīng)濟一體化進程的加快和網(wǎng)絡(luò)時代信息獲取的便捷程度的極大提高,“用數(shù)據(jù)說話,做科學(xué)決策”已成為企業(yè)提高經(jīng)營管理水平的必然選擇,在全球500強企業(yè)中,90%以上的重要投資和經(jīng)營決策都取決于充分的數(shù)據(jù)分析支持。數(shù)據(jù)分析在企業(yè)戰(zhàn)略規(guī)劃、項目投資決策、融資決策、營銷決策、生產(chǎn)運營與管理決策中發(fā)揮的作用和價值日益顯現(xiàn),并已被我國政府部門和各行各業(yè)越來越多的企業(yè)所認同。在這一時代背景下,社會對項目數(shù)據(jù)分析師、市場調(diào)查分析師這些高技能應(yīng)用型人才的需求旺盛,供給缺口巨大,據(jù)權(quán)威部門預(yù)測,在未來幾年,我國對專業(yè)項目數(shù)據(jù)分析師的需求預(yù)計可達20萬人,調(diào)查分析師的市場缺口則在100萬人以上。面對社會對數(shù)據(jù)分析人才的強勁需求和高校經(jīng)管專業(yè)畢業(yè)生就業(yè)難并存的局面,高校應(yīng)充分地認識到,當今社會數(shù)據(jù)分析能力已成為經(jīng)管類大學(xué)畢業(yè)生在職場中生存的一項核心能力,積極探討提升經(jīng)管類專業(yè)大學(xué)生數(shù)據(jù)分析能力的有效策略,對于更好地適應(yīng)社會需求,提高大學(xué)生的職業(yè)競爭力具有重要的意義。
一、社會對數(shù)據(jù)分析人才的技能與素質(zhì)要求分析
數(shù)據(jù)分析是指運用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行整理、分析,從數(shù)據(jù)中提取有用信息并形成分析結(jié)論,提出有價值的決策參考建議的過程。數(shù)據(jù)分析師是指在不同行業(yè)中,專門從事數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)或市場研究、評估和預(yù)測的專業(yè)人員。筆者通過對各大招聘網(wǎng)站數(shù)據(jù)分析師、市場調(diào)查/市場分析師等職位招聘信息的搜索和分析,深入挖掘并歸納出社會用人單位對數(shù)據(jù)分析師職位的技能和能力素質(zhì)要求(詳見下表1),以期為高校經(jīng)管專業(yè)學(xué)生數(shù)據(jù)分析能力的培養(yǎng)提供參考。
從表1可以看出,數(shù)據(jù)分析能力是一種綜合實踐能力,它要求數(shù)據(jù)分析人員在了解行業(yè)狀況及公司業(yè)務(wù)流程的基礎(chǔ)上,構(gòu)建數(shù)據(jù)分析的思路,主動地搜集相關(guān)數(shù)據(jù),運用恰當?shù)慕y(tǒng)計分析方法,借助于統(tǒng)計分析軟件對數(shù)據(jù)進行處理和分析,從而得出分析結(jié)論,并撰寫出有價值的分析報告。
通過以上分析,筆者認為,高校在經(jīng)管類專業(yè)學(xué)生的培養(yǎng)定位中應(yīng)對數(shù)據(jù)分析能力的培養(yǎng)給予充分的重視。應(yīng)要求所有經(jīng)管類專業(yè)的學(xué)生具備基本的數(shù)據(jù)分析能力,以適應(yīng)本專業(yè)領(lǐng)域業(yè)務(wù)數(shù)據(jù)的收集、整理和初步分析的需要,并有針對性地培養(yǎng)出一批具有較強數(shù)據(jù)分析能力的學(xué)生,為他們考取項目數(shù)據(jù)分析師、調(diào)查分析師等資格證書創(chuàng)造條件,使他們有機會成為各行業(yè)中數(shù)據(jù)分析領(lǐng)域的高級專門人才。
二、經(jīng)管類專業(yè)大學(xué)生數(shù)據(jù)分析能力培養(yǎng)中存在的主要問題
(一)經(jīng)管類專業(yè)課程體系設(shè)置中缺少數(shù)據(jù)分析能力培養(yǎng)模塊
當前,在許多高校經(jīng)管類專業(yè)的培養(yǎng)方案中,較少設(shè)有專門講授數(shù)據(jù)分析內(nèi)容的課程。與數(shù)據(jù)分析相關(guān)的內(nèi)容分散于《大學(xué)計算機基礎(chǔ)》、《數(shù)據(jù)庫應(yīng)用基礎(chǔ)》、《統(tǒng)計學(xué)》、《市場調(diào)查與預(yù)測》等課程,學(xué)生雖然從多門課程中接觸到與數(shù)據(jù)分析相關(guān)的一些內(nèi)容,但各門課程的教學(xué)資源未能實現(xiàn)有效的整合,如,《大學(xué)計算機基礎(chǔ)》課程一般在大一開設(shè),該門課程中將Excel軟件作為辦公自動化軟件之一,一般只講授簡單的文字和數(shù)據(jù)錄入及處理,并未涉及Excel軟件的高級數(shù)據(jù)分析功能。而《統(tǒng)計學(xué)》和《市場調(diào)查與預(yù)測》課程一般在大二開設(shè),主要側(cè)重于從理論上介紹數(shù)據(jù)的收集、整理和數(shù)據(jù)分析的各種方法,以及市場調(diào)查和市場預(yù)測的各種方法,這兩門課程主要為數(shù)據(jù)分析提供方法論的指導(dǎo)。這樣的課程體系設(shè)置中就缺少了將數(shù)據(jù)分析的方法與數(shù)據(jù)分析的工具結(jié)合起來培養(yǎng)學(xué)生數(shù)據(jù)分析實際技能的課程,致使學(xué)生并未能有效、深入地掌握實際的數(shù)據(jù)分析技能。
(二)缺少實用性強的培養(yǎng)學(xué)生數(shù)據(jù)分析能力的實踐教材
近年來,一些出版社出版了一批以Excel或SPSS為分析工具的統(tǒng)計分析教材,如:黃等編著的《Excel統(tǒng)計分析基礎(chǔ)教程》、鄧維斌等編著的《SPSS19(中文版)統(tǒng)計分析實用教程》等教材,這些教材在內(nèi)容體系上與《統(tǒng)計學(xué)》教材大體相同,教材內(nèi)容涉及面廣,與企業(yè)實際需求結(jié)合不緊密且難度較大,對于沒有數(shù)據(jù)分析基礎(chǔ)的學(xué)生來講很難掌握,而且有些高級統(tǒng)計分析方法在企業(yè)的實際工作中也很少能應(yīng)用到。
(三)缺乏數(shù)據(jù)分析理論與實踐能力兼?zhèn)涞慕處熽犖?/p>
培養(yǎng)學(xué)生的數(shù)據(jù)分析能力,首先需要擁有一支既懂數(shù)據(jù)分析理論又能指導(dǎo)學(xué)生統(tǒng)計軟件操作的高水平的教師隊伍,而長期以來統(tǒng)計學(xué)教學(xué)中一直存在的重理論,輕實踐的狀況,使得能夠講授《數(shù)據(jù)分析》實踐課程的教師嚴重缺乏,這也是影響學(xué)生數(shù)據(jù)分析能力培養(yǎng)的關(guān)鍵制約因素。
(四)學(xué)生對數(shù)據(jù)分析存在畏懼心理
對于許多初次接觸統(tǒng)計學(xué)和數(shù)據(jù)分析的學(xué)生,經(jīng)常會對書中大量的數(shù)學(xué)公式和復(fù)雜的軟件操作產(chǎn)生畏懼心理和回避心理,加之一些統(tǒng)計學(xué)教師在教學(xué)過程中對學(xué)生的學(xué)習(xí)沒有加以正確的引導(dǎo),致使很多學(xué)生從一開始就對掌握數(shù)據(jù)分析這門有用的技能失去了的興趣和學(xué)習(xí)的信心,從而必然會影響到學(xué)習(xí)的效果。
三、經(jīng)管類專業(yè)大學(xué)生數(shù)據(jù)分析能力提升策略的探討
(一)完善學(xué)生數(shù)據(jù)分析能力培養(yǎng)模塊
為強化學(xué)生數(shù)據(jù)分析能力的培養(yǎng),高校經(jīng)管類各專業(yè)的培養(yǎng)方案中應(yīng)設(shè)置培養(yǎng)學(xué)生數(shù)據(jù)分析能力的模塊。筆者認為,首先應(yīng)將已開設(shè)的與學(xué)生數(shù)據(jù)分析能力培養(yǎng)相關(guān)的《大學(xué)計算機基礎(chǔ)》、《數(shù)據(jù)庫應(yīng)用基礎(chǔ)》、《統(tǒng)計學(xué)》、《市場調(diào)查與預(yù)測》等課程的內(nèi)容進行有機地整合,在此基礎(chǔ)上,在大三學(xué)年開設(shè)《數(shù)據(jù)分析基礎(chǔ)》實踐必修課,以加強學(xué)生數(shù)據(jù)分析的實際技能,構(gòu)建學(xué)生數(shù)據(jù)分析能力的完備知識體系。同時,經(jīng)管各專業(yè)還可根據(jù)需要增設(shè)《SPSS軟件應(yīng)用》作為專業(yè)選修課,以滿足那些對數(shù)據(jù)分析有濃厚興趣,準備考取項目數(shù)據(jù)分析師、調(diào)查分析師資格證書,有志于成為數(shù)據(jù)分析專門人才的學(xué)生的需求。
(二)開發(fā)實用性強的《數(shù)據(jù)分析》實踐教材
借鑒社會項目數(shù)據(jù)分析師、調(diào)查分析師資格認證相關(guān)培訓(xùn)教材,編寫一部《數(shù)據(jù)分析基礎(chǔ)》實踐教材,教材將以通用的Excel軟件為分析工具,這樣可以降低學(xué)習(xí)難度,從心理上拉近與非統(tǒng)計專業(yè)學(xué)生的距離,目的是使經(jīng)管專業(yè)的學(xué)生掌握必知必會的數(shù)據(jù)分析概念、流程和操作,以適應(yīng)社會對經(jīng)管類應(yīng)用型人才應(yīng)具備基本的數(shù)據(jù)分析技能的需求。教材的內(nèi)容體系將按數(shù)據(jù)分析的流程構(gòu)建,具體內(nèi)容將設(shè)以下7大模塊:1.數(shù)據(jù)分析概述;2.數(shù)據(jù)采集;3.數(shù)據(jù)處理;4.數(shù)據(jù)分析(包括數(shù)據(jù)分析方法、數(shù)據(jù)分析工具的使用);5.數(shù)據(jù)呈現(xiàn);6.報告撰寫;7.綜合案例。
(三)培養(yǎng)一支數(shù)據(jù)分析理論與實踐能力兼?zhèn)涞慕處熽犖?/p>
針對當前部分高校缺乏數(shù)據(jù)分析理論與實踐能力兼?zhèn)涞闹v師隊伍的難題,學(xué)校可以采取“引進來,走出去”的辦法多渠道解決專業(yè)師資力量不足的問題,一方面可以從其他學(xué)校聘請專業(yè)教師授課,也可以派出本學(xué)校中、青年教師到其他設(shè)有統(tǒng)計學(xué)專業(yè)的高校進行短期的進修學(xué)習(xí),以提高數(shù)據(jù)分析的理論水平和實踐能力,此外,學(xué)校還可以鼓勵本校中、青年教師考取項目數(shù)據(jù)分析師等資格證書,以深入地了解社會對數(shù)據(jù)分析能力的需求,使學(xué)校的人才培養(yǎng)定位與社會需求能夠?qū)崿F(xiàn)無縫對接。
(四)培養(yǎng)學(xué)生對數(shù)據(jù)分析的濃厚興趣
記得有一位資深的數(shù)據(jù)分析人士曾說過:“統(tǒng)計學(xué)是一門很難,但是很有趣,更是很有用的工具學(xué)科。懂得如何使用它的人總是樂在其中,而尚未入門的人則畏之如虎。”筆者結(jié)合多年的教學(xué)經(jīng)驗認為,要想將《統(tǒng)計學(xué)》這樣一門多數(shù)人認為很難的課程讓初學(xué)者理解它、接受它,對它產(chǎn)生濃厚興趣,需要借助一些人們生活中的小案例,將難懂的統(tǒng)計學(xué)的基本概念和公式還原回生活當中,用來解釋社會經(jīng)濟現(xiàn)象,幫助學(xué)生發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律。總之,培養(yǎng)學(xué)生對數(shù)據(jù)分析的濃厚興趣,是提升經(jīng)管類專業(yè)學(xué)生數(shù)據(jù)分析能力的關(guān)鍵所在。
[參 考 文 獻]
統(tǒng)計學(xué)是一門實質(zhì)性的社會科學(xué),既研究社會生活的客觀規(guī)律,也研究統(tǒng)計方法。統(tǒng)計學(xué)繼承和發(fā)展基礎(chǔ)統(tǒng)計的理論成果,堅持統(tǒng)計學(xué)的社會科學(xué)性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際。隨著社會的不斷發(fā)展,統(tǒng)計學(xué)的應(yīng)用越來越廣泛,并不斷發(fā)展。
一、 統(tǒng)計學(xué)中的幾種統(tǒng)計思想
(一)統(tǒng)計思想的形成
統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。
(二)比較常用的幾種統(tǒng)計思想
所謂統(tǒng)計思想,就是統(tǒng)計實際工作、統(tǒng)計學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想。現(xiàn)分述如下:
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想
擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
6.檢驗思想
統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
(三)統(tǒng)計思想的特點
作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
二、對統(tǒng)計思想的一些思考
(一)要更正當前存在的一些不正確的思想認識
英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當科學(xué)的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認為方法越復(fù)雜越科學(xué),在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟統(tǒng)計不是科學(xué)這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
(二)要不斷拓展統(tǒng)計思維方式
統(tǒng)計學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
(三)深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(DDA)、推斷性數(shù)據(jù)分析(IDA)和探索性數(shù)據(jù)分析(EDA)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻:
[1] 陳福貴.統(tǒng)計思想雛議[J].北京統(tǒng)計,2004.(05) .
[2] 龐有貴.統(tǒng)計工作及統(tǒng)計思想[J].科技情報開發(fā)與經(jīng)濟,2004.(03) .
[3] 范文正.幾種基本統(tǒng)計思想的現(xiàn)實意義[J].統(tǒng)計與決策,2007.(08) .
[4] 邢莉.《九章算術(shù)》中的統(tǒng)計學(xué)思想探究[J].統(tǒng)計研究,2008.(03).
1.引言
生物統(tǒng)計學(xué)是研究數(shù)據(jù)資料的收集、整理、分析、解釋的一門科學(xué)[1],也是畜牧、獸醫(yī)、農(nóng)學(xué)、微生物、醫(yī)學(xué)等領(lǐng)域中不可缺少的統(tǒng)計工具,越來越多的數(shù)據(jù)分析離不開生物統(tǒng)計學(xué)原理。隨著計算機技術(shù)的發(fā)展,已經(jīng)有更多軟件或操作系統(tǒng)被應(yīng)用于生物統(tǒng)計學(xué),如Excel[2],SAS[3],SPSS[4]等,但是不同統(tǒng)計軟件具有不同的統(tǒng)計特點,如Excel統(tǒng)計功能更為簡單,適合生物統(tǒng)計學(xué)的初學(xué)者。SAS統(tǒng)計功能比較寬廣些,因其里面統(tǒng)計模塊的限制,所以更適合自己編寫程序的學(xué)者。SPSS的統(tǒng)計功能更為強大,幾乎具備了所有統(tǒng)計分析功能,操作相對簡單、直觀。
2.二項分布
雖然從統(tǒng)計分析來看,SAS和SPSS的統(tǒng)計分析功能略勝于Excel,但是Excel具有其獨特的地方,如對一些常用分布的概率計算來說Excel顯得簡單多了。二項分布是最常見的離散性隨機變量的概率分布,核心定義為每次實驗只能有兩種可能結(jié)果。對于二項分布的手動計算公式[1]:
3 利用Excel對二項分布的概率計算
雖然二項分布的概率手動也能計算,但是比較費時費力,因此我們借助Excel計算二項分布的概率就比較簡單。例2:已知某種病豬的死亡率為30%,現(xiàn)在有10頭病豬,如果不給治療,問死4頭的概率是多少?和死4頭及4頭以下的概率是多少?
(1)死4頭的概率:Excel中選定空格―插入f函數(shù)統(tǒng)計BINOMDIST:在其對話框中從上依次輸入4,10,0.3,false,具體見圖1,其概率為0.2001。
(2)死4頭及4頭以下的概率:Excel中,選定空格―插入f函數(shù)統(tǒng)計BINOMDIST:在其對話框中從上依次輸入(4,10,0.3,true),具體見圖2,其概率為0.8497。
4.注意問題
在本次教學(xué)改革與實踐中,已經(jīng)把各種分布的概率計算納入《生物統(tǒng)計學(xué)》實踐教學(xué)中,一方面可以讓學(xué)生針對不同數(shù)據(jù)清楚其分布類型,針對不同分布類型選用不同Excel函數(shù)模塊,可以說將課本上所學(xué)知識很好地應(yīng)用于實踐數(shù)據(jù)分析。本文介紹的是二項分布,只有二項分布的概率計算才適用Excel中的BINOMDIST統(tǒng)計函數(shù)模塊,如果是其他分布的概率計算需要另選其他模塊。
參考文獻:
[1]張勤.生物統(tǒng)計學(xué).中國農(nóng)業(yè)大學(xué)出版社,北京,2009.
一、關(guān)于統(tǒng)計學(xué)
統(tǒng)計學(xué)是一門實質(zhì)性的社會科學(xué),既研究社會生活的客觀規(guī)律,也研究統(tǒng)計方法。統(tǒng)計學(xué)是繼承和發(fā)展基礎(chǔ)統(tǒng)計的理論成果,堅持統(tǒng)計學(xué)的社會科學(xué)性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
二、統(tǒng)計學(xué)中的幾種統(tǒng)計思想
2.1統(tǒng)計思想的形成
統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。
2.2比較常用的幾種統(tǒng)計思想
所謂統(tǒng)計思想,就是統(tǒng)計實際工作、統(tǒng)計學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想。現(xiàn)分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.2.2變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
2.2.4相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
2.2.5擬合思想
擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
2.2.6檢驗思想
統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
2.3統(tǒng)計思想的特點
作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
三、對統(tǒng)計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當科學(xué)的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認為方法越復(fù)雜越科學(xué),在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟統(tǒng)計不是科學(xué)這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
3.2要不斷拓展統(tǒng)計思維方式
統(tǒng)計學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(DDA)、推斷性數(shù)據(jù)分析(IDA)和探索性數(shù)據(jù)分析(EDA)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻:
[1]陳福貴.統(tǒng)計思想雛議[J]北京統(tǒng)計,2004,(05).
一、關(guān)于統(tǒng)計學(xué)
統(tǒng)計學(xué)是一門實質(zhì)性的社會科學(xué),既研究社會生活的客觀規(guī)律,也研究統(tǒng)計方法。統(tǒng)計學(xué)是繼承和發(fā)展基礎(chǔ)統(tǒng)計的理論成果,堅持統(tǒng)計學(xué)的社會科學(xué)性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
二、統(tǒng)計學(xué)中的幾種統(tǒng)計思想
2.1統(tǒng)計思想的形成
統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。
2.2比較常用的幾種統(tǒng)計思想
所謂統(tǒng)計思想,就是統(tǒng)計實際工作、統(tǒng)計學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想。現(xiàn)分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.2.2變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
2.2.4相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
2.2.5擬合思想
擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
2.2.6檢驗思想
統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
2.3統(tǒng)計思想的特點
作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
三、對統(tǒng)計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當科學(xué)的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認為方法越復(fù)雜越科學(xué),在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟統(tǒng)計不是科學(xué)這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
3.2要不斷拓展統(tǒng)計思維方式
統(tǒng)計學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(DDA)、推斷性數(shù)據(jù)分析(IDA)和探索性數(shù)據(jù)分析(EDA)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻:
[1]陳福貴.統(tǒng)計思想雛議[J]北京統(tǒng)計,2004,(05).
統(tǒng)計思想需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的數(shù)理統(tǒng)計思想。
二、數(shù)理統(tǒng)計思想的特點
數(shù)理統(tǒng)計思想從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在數(shù)理統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)數(shù)理統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)數(shù)理統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)數(shù)理統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)數(shù)理統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
三、數(shù)理統(tǒng)計思想
就是統(tǒng)計實際工作、數(shù)理統(tǒng)計學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。數(shù)理統(tǒng)計的思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想。
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有數(shù)理統(tǒng)計學(xué)理論,是數(shù)理統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。數(shù)理統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想
擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模于此而預(yù)示的可能性”。
6.檢驗思想
數(shù)理統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
四、數(shù)理統(tǒng)計的思想方法?
1.要更正不正確的思想認識
英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當科學(xué)的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認為方法越復(fù)雜越科學(xué),在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟統(tǒng)計不是科學(xué)這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
2.要不斷拓展統(tǒng)計思維方式
數(shù)理統(tǒng)計學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
3.要深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析、推斷性數(shù)據(jù)分析和探索性數(shù)據(jù)分析等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
數(shù)理統(tǒng)計思想方法應(yīng)用必須堅持以事實為依據(jù)、用數(shù)據(jù)說話的原則,把統(tǒng)計技術(shù)的應(yīng)用與專業(yè)技術(shù)緊密結(jié)合,在考慮統(tǒng)計項目實施時,應(yīng)從理論和事實層面上注重分析和使用條件,認真權(quán)衡各種關(guān)聯(lián)因素。數(shù)理統(tǒng)計學(xué)是繼承和發(fā)展基礎(chǔ)統(tǒng)計的理論成果,堅持統(tǒng)計學(xué)的社會科學(xué)性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
參考文獻
[1] 陳福貴.統(tǒng)計思想雛議[J]北京統(tǒng)計,?2004,(05).
[2] 龐有貴.統(tǒng)計工作及統(tǒng)計思想[J]科技情報開發(fā)與經(jīng)濟,?2004,(03).
二、數(shù)據(jù)科學(xué)的統(tǒng)計學(xué)內(nèi)涵
(一)理論基礎(chǔ)
數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來的,譬如,統(tǒng)計學(xué)、統(tǒng)計學(xué)習(xí)或稱統(tǒng)計機器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計量經(jīng)濟學(xué)、文獻計量學(xué)、網(wǎng)絡(luò)計量學(xué)、生物統(tǒng)計學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計算機科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計學(xué)知識、專業(yè)應(yīng)用知識三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識,并沒有進行實質(zhì)性的分析,就好似任何現(xiàn)實活動都可以拆解為不同的細分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點,數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計算機科學(xué)的一個替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒有作為一個獨立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個獨立的學(xué)科提出時,將數(shù)據(jù)科學(xué)表述為統(tǒng)計學(xué)加上它在計算技術(shù)方面的擴展。這種觀點表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴展的結(jié)果。一如統(tǒng)計學(xué)最初只是作為征兵、征稅等行政管理的附屬活動,而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴展來看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計算機實現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢越來越突出。注意到,數(shù)據(jù)分析有驗證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設(shè),就是觀測數(shù)據(jù)是由背后的一個(隨機)模型生成,因此數(shù)據(jù)分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強調(diào)EDA是因為它被低估了。數(shù)據(jù)導(dǎo)向是計算機時代統(tǒng)計學(xué)發(fā)展的方向,這一觀點已被越來越多的統(tǒng)計學(xué)家所認同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機制;而算法模型則認為復(fù)雜的現(xiàn)實世界無法用數(shù)學(xué)公式來刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時對數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術(shù)的迅猛發(fā)展而得到快速成長,然而很大程度上是在統(tǒng)計學(xué)這個領(lǐng)域之外“悄然”進行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、隨機森林等機器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測變量記為x,擾動項和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對y做出預(yù)測,其中,f是一個有顯式表達的函數(shù)形式(若f先驗假定,則對應(yīng)CDA;若f是探索得到的,則對應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統(tǒng)建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到準確的模型———外推預(yù)測能力強。而對于現(xiàn)實中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實際的做法是直接去尋找一個恰當?shù)念A(yù)測規(guī)則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強。基于算法的基本形式類似于非參數(shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低yx,因為非參數(shù)方法很多時候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過了函數(shù)機制的探討,尋找的只是一個預(yù)測規(guī)則(后續(xù)的檢驗也是基于預(yù)測構(gòu)造的)。在很多應(yīng)用場合,算法模型得到的是針對具體問題的解(譬如某些參數(shù)是被當作一個確定的值通過優(yōu)化算法得到的),并不是統(tǒng)計意義上的推斷解。
(二)技術(shù)維度
數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個毫無統(tǒng)計學(xué)知識的人應(yīng)用統(tǒng)計軟件也可以得到統(tǒng)計結(jié)果,但無論其過程還是結(jié)果都是可疑的,對統(tǒng)計結(jié)果的解釋也無法令人信服。“從計算機科學(xué)自身來看,這些應(yīng)用領(lǐng)域提供的主要研究對象就是數(shù)據(jù)。雖然計算機科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進一步的加強”。不可否認,統(tǒng)計分析逐漸向計算機科學(xué)技術(shù)靠近的趨勢是明顯的。這一方面是因為,數(shù)據(jù)量快速膨脹,數(shù)據(jù)來源、類型和結(jié)構(gòu)越來越復(fù)雜,迫切需要開發(fā)更高效率的存儲和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計算機科學(xué)技術(shù)的迅猛發(fā)展為新方法的實現(xiàn)提供了重要的支撐。對于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計算機科學(xué)這個屬性的一個重要原因還不單純是因為需要統(tǒng)計軟件來協(xié)助基本的統(tǒng)計分析和計算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)那樣可以直接用于統(tǒng)計分析。事實上,面對越來越龐雜的數(shù)據(jù),核心的統(tǒng)計方法并沒有實質(zhì)性的改變,改變的只是實現(xiàn)它的算法。因此,從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學(xué)的方法論,而是計算機科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,是如何實現(xiàn)統(tǒng)計分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒有實質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計算機技術(shù)如何更新升級來適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)應(yīng)用維度
在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息①的完整過程。數(shù)據(jù)科學(xué)家要同時具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說,數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來源、類型和存儲調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時對分析結(jié)果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫、統(tǒng)計學(xué)、機器學(xué)習(xí)、經(jīng)濟學(xué)、商業(yè)分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻中,對應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實際應(yīng)用。甚至有觀點認為,數(shù)據(jù)科學(xué)是為應(yīng)對大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計人員的基本素質(zhì)。對數(shù)據(jù)的簡單收集和報告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強調(diào)對數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發(fā)問)。同時數(shù)據(jù)科學(xué)家要有良好的表達能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實清楚地表達給相關(guān)部門以便實現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會的角度來看,強調(diào)應(yīng)用這個維度無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實務(wù)部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長的科學(xué)研究數(shù)據(jù)進行了廣泛的討論。格雷還進一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上是將數(shù)據(jù)從計算科學(xué)中單獨區(qū)別開來了。
三、數(shù)據(jù)科學(xué)范式對統(tǒng)計分析過程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個機構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個層面來說,將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當。事實上,孤立的大數(shù)據(jù),其價值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價值。譬如消費行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計,微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購物推薦,搜索數(shù)據(jù)用于流感預(yù)測、利用社交媒體數(shù)據(jù)監(jiān)測食品價等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無形中增強了對數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過去難以統(tǒng)計的指標和變量提供了另辟蹊徑的思路。從統(tǒng)計學(xué)的角度來看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對統(tǒng)計分析過程的各個環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評價、等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計學(xué)被作為一個獨立的學(xué)科分離出來之前(1900年前),統(tǒng)計學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計方法(統(tǒng)計推斷)以及現(xiàn)代意義上的統(tǒng)計調(diào)查(抽樣調(diào)查)正是在這個時期產(chǎn)生。隨后的45年里,統(tǒng)計方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來自于統(tǒng)計分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計調(diào)查方法通常是經(jīng)過設(shè)計的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實錄的、有機的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時都在增加(數(shù)據(jù)集是動態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來源和類型更加豐富,數(shù)據(jù)庫間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問題也變得更加復(fù)雜。隨著移動電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應(yīng)的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統(tǒng)計調(diào)查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來越難以取得(從各國的經(jīng)驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統(tǒng)計的數(shù)據(jù)來源已經(jīng)無法局限于傳統(tǒng)的統(tǒng)計調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計分析方法的核心是抽樣推斷(參數(shù)估計和假設(shè)檢驗),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來產(chǎn)生質(zhì)量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計算機時代統(tǒng)計學(xué)發(fā)展無法回避的一個重要趨勢。算法模型不僅對數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計算效率上有很大的優(yōu)勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲、傳輸?shù)却髷?shù)據(jù)管理方面的問題。僅從數(shù)量上來看,信息爆炸、數(shù)據(jù)過剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)埂⒇S富的數(shù)據(jù)貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數(shù)據(jù)中有利用價值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數(shù)據(jù)。然而,大數(shù)據(jù)時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數(shù)據(jù)。因為:數(shù)據(jù)再怎么拋棄還是會越來越多。我們不能通過刪減數(shù)據(jù)來適應(yīng)自己的無能,為自己不愿做出改變找借口,而是應(yīng)該面對現(xiàn)實,提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當前無用的數(shù)據(jù)將來也無用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲的成本。大數(shù)據(jù)存儲目前廣泛應(yīng)用的是GFS、HDFS等基于計算機群組的文件系統(tǒng),它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統(tǒng)存儲的數(shù)據(jù)僅僅是整個架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計分析。而NoSQL這類分布式存儲系統(tǒng)可以實現(xiàn)高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫編程,二者的差異將變得越來越模糊。大數(shù)據(jù)分析的可行性問題指的是,數(shù)據(jù)量可能大到已經(jīng)超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對也就“大”了。換句話說,可行性問題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內(nèi)完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網(wǎng)格計算也是并行處理,但是對于大數(shù)據(jù)而言,由于很多節(jié)點需要訪問大量數(shù)據(jù),因此很多計算節(jié)點會因為網(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節(jié)點上存儲數(shù)據(jù),以實現(xiàn)數(shù)據(jù)的本地快速訪問。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結(jié)論
(一)數(shù)據(jù)科學(xué)不能簡單地理解為統(tǒng)計學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時,數(shù)量級也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來越受到學(xué)界的廣泛重視。
(二)從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學(xué)的方法論,而是計算機科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,核心的數(shù)據(jù)分析邏輯并沒有實質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計算機技術(shù)如何更新升級以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)大數(shù)據(jù)問題很大程度上來自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動,因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息的完整過程。這種強調(diào)應(yīng)用維度的觀點無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上將數(shù)據(jù)從計算科學(xué)中單獨區(qū)別開了。
統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想等。統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點:
(1)統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;
(2)統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;
(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;
(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想。統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關(guān)思想。事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想。擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
6.檢驗思想。統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
二、對統(tǒng)計思想的若干思考
統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想等。統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點:(1)統(tǒng)計思想強調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想。統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關(guān)思想。事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想。擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
6.檢驗思想。統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
二、對統(tǒng)計思想的若干思考
中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-5739(2016)22-0284-01
生物統(tǒng)計學(xué)是畜牧、獸醫(yī)、農(nóng)學(xué)、微生物、醫(yī)學(xué)等領(lǐng)域中不可缺少的統(tǒng)計工具,數(shù)據(jù)分析離不開生物統(tǒng)計學(xué)的原理。隨著計算機技術(shù)的發(fā)展,已有更多的軟件被應(yīng)用于生物統(tǒng)計學(xué),如SPSS[1-4]、Excel[5]、SAS[6]等,但是不同的統(tǒng)計軟件有不同的特點,如Excel統(tǒng)計功能雖然簡單,但是操作方便,分析出來的結(jié)果更為直觀,更適合生物統(tǒng)計學(xué)的初學(xué)者。
1 分析工具庫的安裝
Excel一般并不直接帶著“分析工具庫”這一模塊,需要在Excel的基礎(chǔ)上自行安裝。安裝步驟:Excel的工具―加載宏―分析工具庫―確定。
2 雙樣本等方差數(shù)據(jù)資料的t檢驗
一般很難從數(shù)據(jù)資料上確定2個樣本的方差是否相等,需要對其做方差的齊性檢驗來判斷。下面以果蠅的TPI酶活性為例,闡述雙樣本異方差的t檢驗過程。
2.1 數(shù)據(jù)資料的建立
為了比較果蠅中TPI酶活性在pH=5和pH=8時是否有區(qū)別,將10只果蠅隨機分為2組,一組測定在pH=5下的TPI酶活性,另一組測定在pH=8下的TPI酶活性,問這2種pH值下的平均TPI活性是否有顯著差異[7]。首先在Excel中把分組的名稱“pH=5”和“pH=8”分別填入每一列的最上方,然后在“pH=5”和“pH=8”下方錄入其果蠅的TPI酶活性數(shù)據(jù)資料,具體如圖1所示。
2.2 t檢驗分析
因為在本數(shù)據(jù)資料里,沒有提到2個總體方差相等還是不相等,因此有必要先對數(shù)據(jù)資料進行方差齊性檢驗。在Excel中,選擇工具―數(shù)據(jù)分析―F檢驗―雙樣本方差,點擊確定進行分析,在本例題中P(F≤f)單尾
2.3 結(jié)果分析
結(jié)果部分如圖3所示,“t Stat”Excel計算出的t值,圖3的最下方4項分別是單尾檢驗和雙尾檢驗的結(jié)果,可以依據(jù)題意來選擇哪個結(jié)果,一般情況是雙尾檢驗。結(jié)果分析可以有以下2種途徑:①可以根據(jù)P(T≤t)雙尾的顯著性概率直接判定,即0.01
3 結(jié)語
本文主要介紹的是如何利用Excel對雙樣本異方差的數(shù)據(jù)資料進行t檢驗,在其t檢驗過程中一定注意總體方差不等的情況下才可以用雙樣本異方差的t檢驗?zāi)K,如果方差相等的情況選用其他模塊。在結(jié)果分析部分有2種依據(jù)可以判定結(jié)果,利用顯著性概率P(T≤t)來判定結(jié)果更為簡單一些,P(T≤t)
4 參考文獻
[1] 白俊艷,徐廷生,張小輝.《生物統(tǒng)計附試驗設(shè)計》上機實驗改革與實踐[J].教育教學(xué)論壇,2015(18):247-248.
[2] 白俊艷,賈小平,張小輝,等.生物統(tǒng)計學(xué)課程改革與實踐[J].畜牧與飼料科學(xué),2013,34 (10):57-58.
[3] 白俊艷,武曉紅,張小輝,等.生物統(tǒng)計附試驗設(shè)計課程考核方式的改革與實踐[J].安徽農(nóng)業(yè)科學(xué),2015,43( 5):369-370.
[4] 秦立金.SPSS統(tǒng)計軟件在生物統(tǒng)計課程中的探索研究[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2014,30(3):198-199.
1.簡化理論,保證“夠用”。統(tǒng)計學(xué)的原理抽象、公式的推導(dǎo)難懂、計算過程復(fù)雜容易出錯,這些都是學(xué)生學(xué)習(xí)統(tǒng)計學(xué)的共同難點。大多數(shù)高職院校學(xué)生高等數(shù)學(xué)基礎(chǔ)差,甚至根本就沒有高等數(shù)學(xué)的基礎(chǔ)。而且,統(tǒng)計學(xué)課程的周課時少(一般周課時只有2節(jié)),教學(xué)進度快,學(xué)生理解消化的時間不夠。對高職學(xué)生來說就更是難上加難了。所以,在保證“夠用”的前提下,簡化理論就成了統(tǒng)計學(xué)教學(xué)中的一個重要任務(wù)。筆者在實際教學(xué)中,按照“必須”和“夠用”的原則,根據(jù)人才培養(yǎng)方案和教學(xué)大綱的要求對上課的內(nèi)容進行重組。強調(diào)課程體系的針對性,課程設(shè)置不是從學(xué)科體系出發(fā),而是從職業(yè)崗位群的需要出發(fā),體現(xiàn)國際勞工組織的MES職業(yè)培訓(xùn)體系經(jīng)常采用的模式――模塊式課程模式(把專業(yè)學(xué)科的系統(tǒng)理論知識進行簡化、分解成職業(yè)崗位群所需要的模塊知識)。具體課堂教學(xué)操作是:
在簡化理論方面,首先,在教材體系中,簡化教材中抽象基本原理的講述、復(fù)雜公式的推導(dǎo),省略繁雜的書面統(tǒng)計計算過程的章節(jié)。把重點放在假設(shè)檢驗、方差分析、χ2檢驗和直線回歸等實際應(yīng)用性的章節(jié);其次,在教學(xué)內(nèi)容上,簡化抽象基本原理的講述、復(fù)雜公式的推導(dǎo),省略繁雜的統(tǒng)計計算過程。重點講授基本原理適應(yīng)解決的對象,統(tǒng)計公式應(yīng)用的條件,解題的基本步驟、基本方法和應(yīng)注意的事項,新增引用Excel計算統(tǒng)計量、統(tǒng)計分析和常見統(tǒng)計軟件的初步應(yīng)用等內(nèi)容。
所謂“夠用”,首先是保證學(xué)生將來從事的崗位群所需要的統(tǒng)計方法及其原理,包括基本統(tǒng)計方法和原理的含義、應(yīng)用對象、適用條件等基本知識;其次要保證具有分析和解決實際問題的實操能力,能做到學(xué)以致用。主要包括基本統(tǒng)計原理在實際工作中的應(yīng)用、分析和解決問題的靈活運用能力和基本統(tǒng)計工具(Excel和SPSS,EVIEWS,SAS統(tǒng)計軟件)的使用能力等,其中重點是MicrosoftOfficeExcel一些自帶工具在統(tǒng)計學(xué)上的應(yīng)用。
2.優(yōu)化手段,講求“實用”。在課堂教學(xué)中,我們還應(yīng)遵循教育教學(xué)過程和培養(yǎng)目標的另一個特點,即注重崗位能力的培養(yǎng),根據(jù)“按需施教、學(xué)以致用”的原則,組織課程教學(xué)、試驗和實訓(xùn)。筆者根據(jù)以上原則,突出統(tǒng)計專業(yè)課程是定量分析的內(nèi)容較多,應(yīng)用性和實踐性十分明顯的特點,把優(yōu)化教學(xué)手段和“實用”結(jié)合起來,一并體現(xiàn)在課堂教學(xué)之中,主要是改變傳統(tǒng)講授統(tǒng)計學(xué)的“三個一”模式,對教學(xué)手段進行優(yōu)化,采用多媒體自做課件教學(xué)和計算機實操教學(xué)。首先,利用多媒體教學(xué)信息容量大、視覺直觀、效果好的優(yōu)點,既能簡化教材中抽象基本原理的講述、復(fù)雜公式的推導(dǎo),省略繁雜書面統(tǒng)計計算的過程,又不影響學(xué)生對教材的學(xué)習(xí)和理解,在保證基本理論夠用的前提下,還有足夠的時間把重點放在講授基本原理應(yīng)用性的實用內(nèi)容上。其次,增加計算機實操(實驗實訓(xùn))課,把教材中的手工、半手工統(tǒng)計計算轉(zhuǎn)化成計算機計算。主要做法是增加SPSS、EVIEWS和SAS統(tǒng)計軟件的簡介,重點放在引用Excel自帶的函數(shù)公式“fx”計算標準誤、方差等統(tǒng)計量、利用Excel自帶的“數(shù)據(jù)分析”工具分析雙樣本均數(shù)假設(shè)檢驗和方差分析、利用Excel的“圖表向?qū)А鼻蠡貧w方程、相關(guān)系數(shù)和制作圖表等內(nèi)容,其主要目的就是利用計算機這個現(xiàn)代化工具去解決實際生產(chǎn)中的統(tǒng)計問題,使復(fù)雜的統(tǒng)計計算簡單化,以增強學(xué)生的解決實際生產(chǎn)問題的實操運用能力。第三,根據(jù)教學(xué)對象將來的就業(yè)方向,并結(jié)合實際工作中的實際案例和學(xué)生學(xué)習(xí)中其它學(xué)科出現(xiàn)的統(tǒng)計問題自編練習(xí)題,讓學(xué)生反復(fù)練習(xí)并要求他們能舉一反三、熟練應(yīng)用。
3.注重方法,力求“會用”。本文所講的方法是指注重統(tǒng)計學(xué)的實際運用方法,強調(diào)統(tǒng)計學(xué)基礎(chǔ)知識和基本原理在實際工作中的運用。重點內(nèi)容應(yīng)放在Excel自帶的函數(shù)公式、數(shù)據(jù)分析庫和統(tǒng)計軟件的基本應(yīng)用上,而不是理論和繁雜的書面計算過程。核心問題是教會學(xué)生能夠靈活應(yīng)用統(tǒng)計學(xué)這個統(tǒng)計工具,去解決生產(chǎn)實踐中的實際問題。在實際生產(chǎn)中,最為簡單、方便、實用的統(tǒng)計工具就是Excel。所以筆者在教學(xué)過程中就是以Excel的應(yīng)用為中心,結(jié)合實際生產(chǎn)中的問題開展教學(xué)工作。
在工作中要始終堅持“會用”這個原則,“會用”包括兩層含義:第一,會用統(tǒng)計的原理解決實際問題,即知道解決什么問題時使用什么統(tǒng)計方法;第二,會利用Excel自帶的函數(shù)公式“fx”、“數(shù)據(jù)分析”庫和圖形處理等計算統(tǒng)計量,并根據(jù)統(tǒng)計計算結(jié)果對問題進行推論,達到解決實際問題的目的。
在課堂教學(xué)中,我們應(yīng)注意以下幾個問題:第一,注意講清楚“數(shù)據(jù)分析”工具與手工統(tǒng)計分析計算上的銜接關(guān)系;第二,向?qū)W生交代清楚Excel自帶“數(shù)據(jù)分析”適用對象、適用條件,并教會他們分析和判斷;第三,詳細講授運用Excel自帶函數(shù)公式和“數(shù)據(jù)分析”的具體操作步驟,明確Excel計算結(jié)果中各個數(shù)量所代表的意義。下面舉例說明兩種安眠藥的療效有無極顯著的差異:
對10名失眠患者,服用甲乙兩種安眠藥。以XiYi分別表示使用甲乙兩種安眠藥后各個患者睡眠的延長小時數(shù),結(jié)果如下表:
分析說明:第一,利用Excel自帶的“數(shù)據(jù)分析”工具解此題的步驟同手工統(tǒng)計法,也要求有以下4個步驟,①提出假設(shè);②確定顯著水平;③計算概率值;④推斷H0的正誤。其中提出假設(shè)、確定顯著水平和推斷H0的正誤這三步與手工統(tǒng)計分析相同;而Excel自帶的函數(shù)公式和“數(shù)據(jù)分析”工具僅僅用于計算概率值。第二,Excel自帶的“數(shù)據(jù)分析”工具的選定和運用分析。本題具有兩組樣本數(shù)據(jù),而且兩個樣本是相互關(guān)聯(lián)的,樣本容量一樣,每對數(shù)據(jù)都是同一總體在不同條件下抽取的樣本,如第1組數(shù)據(jù)1.9和0.7是同一個患者服用甲乙兩種藥睡眠延長的時間數(shù)。所以應(yīng)選用Excel“數(shù)據(jù)分析”工具中的“t-檢驗:成對雙樣本均值分析”。第三,講清具體操作步驟,并注意對結(jié)果進行說明。
解:①檢驗假設(shè):H0:u1=u2即兩種藥療效相同;HA:u1≠u2即兩種藥療效不相同
②取α的值為0.01(判斷這兩種安眠藥的療效有無極顯著的差異)
③統(tǒng)計計算:此步需用Excel“數(shù)據(jù)分析”工具,具體操作步驟如下:
打開Excel,把數(shù)據(jù)輸入Excel表格,點擊“工具”,再點擊“數(shù)據(jù)分析”,在對話框中選取“t-檢驗:成對雙樣本均值分析”,點擊“確定”。在隨后出現(xiàn)的對話框內(nèi)單擊“變量1的區(qū)域”后的對話框,而后拖動鼠標選定Excel表中的第1組數(shù)據(jù);同理,單擊“變量2的區(qū)域”后的對話框,而后拖動鼠標選定Excel表中的第2組數(shù)據(jù);把“(Α)”后對話框的值改成0.01。然后在“輸出選項”下面的“輸出區(qū)域”前的圓圈內(nèi)單擊鼠標表示選定,再用鼠標點擊“輸出區(qū)域”后面長形對話框,并在Excel數(shù)據(jù)表中鼠標點擊適當?shù)膯卧褡鳛檩敵鰠^(qū)域。最后用鼠標點擊“確定”,此時Excel就會自動生成如上表的結(jié)果:“df”為自由度;“tStat”是“t-檢驗:成對雙樣本均值分析”的統(tǒng)計值,即t=4.062128;“t單尾臨界”是單尾檢驗臨界值,即單尾t0.01=2.8214;“t雙尾臨界”是雙尾檢驗臨界值,即雙尾t0.01=3.2498;“P”為概率,“P(T