緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇大數據開發的過程范文,希望它們能為您的寫作提供參考和啟發。
大數據技術事實上是將人類日常生活中產生的各種數字信息,將這些信息收集起來之后分類處理,設定不同類別的存儲空間,按照類別存儲。大數據技術從功能的角度出發可以劃分為多個類別,諸如分析技術、機器學習技術、遺傳算法技術、自然語音處理技術等。應用大數據技術分析,就是基于當前的科學技術發展起來的一種分析技術。它主要依靠現代科技手段發揮技術的作用,特別網絡技術發揮著基礎性的作用。整理基礎數據,對數據信息進行分類整理,應用相應的計算機算法,將相似特性的數據劃分為一類,最終得到大量的數據,應用大數據技術對這些數據進行分析。大數據分析應用于互聯網行業中,所發揮的優勢是有目共睹的,而且還不斷地引入新技術,在軟件工程技術中應用,對該技術的發展起到了促進作用[1]。
大數據時代,社會各個領域都已經實現了信息化發展,人們對軟件工程的概念越來越熟悉。事實上,軟件工程的歷史始于20世紀的中期,其研究重點是軟件技術和工程管理。將相關工程內容引入其中,使得工程系統化運行,其中所涵蓋的研究內容包括軟件的生命周期、軟件工程設計、軟件的技術維護等方面。因此,在軟件設計的過程中,要控制好技術開發成本,保證工程質量,使其生命周期不斷延長,不同項目的技術需求和用戶的各種技術需求都能夠得到滿足。
2大數據背景下的軟件工程基礎
處于大數據時代環境中,軟件工程的發展中關乎到不同的領域,需要高度重視。大數據技術具有專業性的特點,還具有很強的實用性價值。在軟件工程技術的研究中,要從應用需求出發不斷創新軟件技術,對于傳統的技術要不斷摒棄,對軟件工程的發展創造良好的客觀條件。大數據技術環境下,軟件工程基礎是基于互聯網技術建立起來的,對各種數據信息系統化管理,根據需要進行處理,對工業的發展非常有利[2]。在軟件工程技術中,大數據的安全性問題是需要高度重視的,否則,就會對軟件工程技術造成不良影響,引起嚴重的后果。
2.1軟件服務工程
在軟件工程的研究范疇中,軟件服務工程的數量不斷增多。軟件工程服務化方向發展,就是發揮服務的作用,使其成為軟件開發的基本原則,按照服務項目內容為用戶展開服務。由于軟件工程發展的主題有所,服務內容也要做出相應的調整,同城是對軟件工程的進行技術維護。在具體的服務工作中,需要軟件開發人員使用分布式應用程序,在管理工作中采用虛擬操作的方法為用戶2019.08提供服務[3]。軟件工程技術應用中,結合使用大數據技術,可以對網絡數據進行編程,使得軟件具有互操作性,對于數據主動協調,使其符合動態場景的變化節奏,軟件系統的集成度有所提高。
2.2軟件開源
軟件開源更為注重用戶對軟件技術的體驗。在對軟件開源進行研究的過程中,采用常規的方法,雖然獲得一定的成果,但是應用價值不是很高。一些研究人員在研究軟件工程技術的時候,就是將軟件開源作為突破口,將開發項目劃分為多個模塊,將每個模塊分給指定的研究人員進行開發。
2.3群體軟件工程
群體軟件工程是通過網絡的方式進行軟件開發,具體的實施中采用工程眾包的形式,使得軟件開發技術發揮作用。群體軟件工程是一個分布式軟件開發模型,這個工程項目的運行中,可以通過網絡實現,對各項任務進行分配,也可以進行創造性的查詢,通過眾包解決軟件開發過程中遇到的一些困難和重要問題。同時,在軟件工程開發過程中,軟件工程可以在任何階段通過眾包進行開發[4]。
3大數據與軟件工程技術的未來發展方向
3.1大數據與軟件工程技術開放式的發展
大數據技術的主要前提是大量的數據流,需要技術不斷地升級和創新,尋求開發的研究途徑是非常必要的。計算機網絡的發展意味著計算機可以在開放的環境中相互通信,共享數據資源,軟件等信息的有效利用能力也會有所提升。通過網絡運行可以增加利潤,使得用戶的各種需求得到滿足,提高資源的利用率。
3.2大數據與軟件工程技術融合到其他領域
軟件工程技術在當今許多科學領域有著廣泛的應用。由于軟件工程技術給予各個領域非常大的幫助,從航空到生活中都發揮著軟件工程技術的作用[5]。應用程序的運行,可以使用數據平臺對信息進行收集并分析。比如,用戶在進行股票交易的過程中應用大數據技術,可以使用軟件工程技術構建數據模型,通過對數據模型的分析,預測股票的變化趨勢。
4眾包軟件服務工程中的大數據技術
在軟件開發過程中,必須有足夠的硬件和軟件基礎來支持數據流,隨著數據流的量逐漸增多,對硬件和軟件就有了新的要求。專家學者在分析數據流的時候,還對在線服務進行了研究。數據流是重點內容,主要是對數據流的使用方法進行研究,對支撐數據流的軟件和硬件進行研究[6]。從軟件工程開發的角度而言,軟件運行中都會產生大量的數據流,包括服務端、用戶端等,都會有很多的數據信息產生,這些數據流對軟件和硬件的使用壽命起到了決定性的作用。軟件工程的開發中,要做好數據流的管理工作。有必要對原始數據進行深入的研究,為提高軟件的使用壽命創造條件,對數據流的分析要高度重視[7]。
5密集型數據科研第四范式
第四種科學研究范式是指根據實際情況建立獨立的科學研究方法,探索第四種范式的理論基礎,以及大型數據存儲設備在發展中的重要性。軟件工程中,采用傳統的大數據研究方法,大數據的有效分析是不可能的,大數據的研究還沒有取得突破性的成果。因此,目前大多數軟件不能在短時間內同時實現數據信息的存儲、數據信息的傳輸和有效識別。在探索第四范式理論和研究方法的過程中,首先需要對集成大數據的軟件服務價值進行估計,拋棄傳統的大數據統計方法,建立新的大數據信息統計方法和分析方法[8]。此外,有必要從多個方面研究大數據的處理,對大數據信息進行管理并深入分析,討論大數據的價值以及存在的可變性,這對軟件工程的發展起著重要的作用。在研究軟件工程技術的時候,必須更新傳統的軟件開發理念,重視軟件處理和分析大數據能力的發展,使得軟件產業呈現出新的發展面貌。
在當今大數據時代,軟件工程技術的研究已經區域復雜。隨著數據的指數的不斷增長,軟件技術對硬件設備數據處理能力產生一定的影響。因此,在對軟件工程技術的研究中,就需要對大數據技術的特點進行研究,基于此研究軟件工程技術,使得硬件設備的數據處理能力有所提高。在研發開發軟件技術的過程中,要從應用領域的需求出發對大數據技術進行分析,在大數據開發理論的基礎上創新軟件開發理論,促進軟件技術更好地發展。
二、大數據對高等教育的重要性
1.大數據便于分析學習行為
在教育活動中,教育數據是對教育成效、創新思維、創新能力、科研活動、學習主動性、學習積極性和教學活動進行分析的重要依據,它為教育教學和科研活動提供重要的科學依據和可行性論證的材料。教育數據可以通過面授的方法即面對面的教育互動獲取,如一問一答、講座交流、分組討論、課題合作、興趣小組等,教育數據也可以通過網絡課程平臺或慕課等多媒體課程獲取,以這種方式獲取的數據樣本大、效率高、存儲方便。教育大數據可以呈現學生學習的即時效果以及學生參與課堂教學和科研活動的情況,這是智慧教育的客觀分析的依據和比較研究的素材。教育大數據以其便利性和可操作性為學生學習行為的研究和分析提供了便利條件。首先,教育大數據便于對學生學習行為進行分析。教育大數據便于留存,方便調閱,有助于評價和分析學生的學習行為,進而有針對性地解決問題。其次,教育大數據便于教師從全局把控學生的學習情況。利用數據的關聯性和演繹規律,可以從中獲取課堂上學生互動、課堂接受程度和專注度等教學反饋信息,有利于挖掘個體學生的學習特點,推進個性化教學,或從整體上評估學習行為,對學生進行科學指導。最后,便于教育管理者更好地組織教育資源。教育管理者可以從教育大數據中挖掘有價值的信息,制定教育改革的方向和措施,并采取和風細雨、滋潤心田的管理方式。
2.大數據促進教育科學化發展
首先,大數據提供智能學習平臺。將眾多的高校信息收集起來,資源共享,信息互通,讓世界高校變成地球村,這給教育智能化發展創造了極好的條件。芝加哥大學等多所世界名校達成共識,聯合建設在線教育公共課程,通過網絡平臺免費開放課程,供全球幾十萬人同時收聽或觀看同一知名教授的課程,共享學術精髓。這是教育資源的高效利用,也是高教發展的必然。同時,還可以在網絡平臺上通過MOOC等多種形式進行學術討論和交流。智能化學習平臺讓學習和交流變得更便捷。其次,大數據構建全新教學模式。大數據的應用給高等教育帶來了革命性變革,面對面的課堂講授形式面臨建立在教育大數據基礎上的在線、視頻、多維度、全視角的立體化教育模式的挑戰。教育大數據時代的教學模式,其知識傳授途徑已從課堂走向網絡,從線下走到線上;其知識傳授不受時空限制,可以隨時隨地上網學習在線課程,接受世界名師的網絡課程教育;其教學方式也更靈活。通過觀察或記錄鼠標對某一知識點的點擊量、在一張幻燈片上停留的時間的長短、回答問題后有針對性的關注的有無等情況,可以判斷不同的人對不同知識點的關注和接受程度,從而使得視情況而定的詳解或弱講,或個性化、差異化教學得以實現。教育大數據時代的教學模式還有效地延伸了教學資源和師資。在線上接受世界名師授課,這是高等教育全方位、全時空的重大突破。最后,大數據促進教育科技創新。高等教育大數據通過提供科技創新所需要的信息資源、科研知識和科技問題交流的平臺以及科技信息的實時交流,促進了產學研協同創新,促進了成果的轉化和創新。高等教育大數據之所以能夠發揮這樣的作用,是因為它積聚了科研、教學、工程信息、管理科學、音樂藝術等海量信息,而且這些集音頻、視頻、文字、圖形于一體的立體化信息是可以即時查詢或交流的。高等教育大數據的雙向性和交互性,對于提高科研效率、促成科研成果轉化有很大幫助,間接地促進了高校的進一步發展。
三、高等教育大數據的建設途徑
1.搭建數據平臺,開發大數據處理技術
建立高校大數據應用平臺,在整合原有信息系統的基礎上,升級、建設數據釆集設備、數據傳輸網絡、數據儲存和分析系統,并通過對數據和應用的高度集成將復雜的大數據處理程序交給專業人員處理,為一線教師減輕負擔。高校大數據應用平臺擁有強大的數據收集和分析能力,可以有效地提高數據管理質量和效率,促進資源共享,為高校管理決策提供支撐,推動高校資源配置的優化。大數據應用可以在人才培養、科學研究、社會服務和文化傳承創新等多個方面全面推動高等教育的發展。
海量數據包含了許多冗余和雜質,這樣的數據不便使用,甚至不能使用。要發揮大數據的功用,提高其價值密度,就必須開發大數據的相關技術。首先,開發大數據集成技術。對數據進行有效的集成和整合,以剔除無關信息而不使有用的信息流失。完成這種除冗降噪過程的,是大數據技術中的數據采集和算法技術。不同來源的數據存在結構化、半結構化和非結構化三種結構形式,數據之間的差異給數據的集成帶來了巨大的困難。這需要開發比Hadoop分布式處理軟件更先進的系統進行集成。其次,改進大數據存儲技術。存儲設備容量不可能跟上數據規模的擴張,而大數據存儲技術又與數據成本、計算和分析速度直接相關,這就要求開發一種既能夠存貯多元異構數據又滿足數據格式統一、標準統一要求的存儲技術。再次,開發高效的實時分析技術。傳統的分析技術可以對大數據中結構化靜態數據進行分析,但數據的一致性、可用性和容錯性不可兼得。大數據的可擴展性和可用性不能得到滿足,影響它的使用。只有開發一種橫向擴展能力強、能大規模處理非結構性數據的分析技術,才能滿足高效地進行動態分析的要求。最后,開發可移植處理模型。目前的大數據處理框架大多是針對各行業、各領域的情況開發的,不具有廣適性和可移植性,限制了大數據的應用。在高等教育領域,大數據專業人員應同各領域專家合作,開發可移植處理模型。
DOIDOI:10.11907/rjdk.161946
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:16727800(2016)009013202
作者簡介作者簡介:楊洋(1995-),女,湖北武漢人,華中師范大學信息管理學院學生,研究方向為信息管理與信息系統。
0引言
隨著互聯網時代的來臨,越來越多的數據都來源于網絡,網絡數據呈爆炸式增長,如何對這些網絡信息資源進行有效的采集、組織、分析和利用成為急需解決的問題。運用先進的技術和管理經驗來對網絡信息資源進行開發是大數據時代急待解決的問題。
1大數據概述
2011年,位于美國的全球知名咨詢公司麥肯錫最早提出了“大數據時代”概念,隨即在全球掀起了軒然大波,似乎所有學科都被冠以大數據的頭銜。隨著網絡時代的發展,數據以驚人的速度增長――每秒鐘有60張照片上傳到網絡;每分鐘有60個小時的視頻上傳到YouTube;每天,全球互聯網中產生的數據可以刻滿1.68億張DVD,發出的論壇帖子達到200萬個,相當于美國《時代》雜志770年的文字量。
到目前為止,大數據還沒有一個完全準確且被公認的定義。麥肯錫全球研究所給出的定義是:大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。現在被廣泛認可的是大數據的4V特征:海量的數據規模(Volume)、快速的數據流轉(Velocity)、多樣的數據類型(Variety)、價值密度低(Value)。
隨著科技時代的發展,大數據的處理要求與日俱增,特別是面對海量的網絡信息資源,亟需大數據技術的特殊處理,才能夠得到充分的組織利用,才會為社會創造更大的價值。
2大數據時代網絡信息資源開發利用現狀
2.1網絡信息資源概念
廣義上講,信息資源是指一個貫穿于人類社會信息活動中從事生產、分配、交換、流通、消費全過程的多要素集合,包括信息勞動的對象、信息勞動設備、信息勞動技術、信息勞動者等[1]。而網絡信息資源作為知識經濟時代的產物,即虛擬的信息資源,是指借助于網絡環境可以利用的各種信息資源總和。網絡信息資源可以指以數字化形式記錄的、通過計算機網絡通信方式進行傳遞的信息內容集合,也可以是為滿足人類需求,借助計算機等設備開發、生產和傳遞的、通過網絡獲取的信息集合。
2.2大數據時代網絡信息資源開發利用機遇
過去,很多行業對網絡數據只是進行傳統挖掘,比如點擊率、網絡流量以及其它僅局限于網絡數據的指標。因為技術、人才的缺乏,導致很多詳細的網絡行為數據沒有被充分挖掘。但是現在,在基于大數據的有關技術以及在全行業大數據的浪潮中,來自于網頁瀏覽器、移動應用終端、自助服務終端、社交媒體等地方的網絡數據被挖掘整理為有價值的網絡信息資源,為科研、商業、教育等領域提供源源不斷的可用情報,從而促進各大行業蓬勃發展。在大數據時代,網絡信息資源中可挖掘的有用信息更加豐富。
早在大數據概念提出不久的2012年,美國就已經將大數據研究和發展計劃提升為國家發展戰略。美國作為一個科技與經濟強國,其對大數據的重視程度可見一斑。雖然我國互聯網起步較晚,但政府在實行大數據戰略時也給予了充分的經濟與政策支持。2016年中國大數據產業峰會暨中國電子商務創新發展峰會的主題便是大數據開啟智能時代,國務院總理出席開幕式并發表致辭。信息處理技術作為四項關鍵技術創新工程之一,涵蓋了海量數據存儲、圖像視頻智能分析、數據挖掘等信息處理技術,是大數據技術的重要組成部分。
2.3大數據時代網絡信息資源開發利用的挑戰
大數據時代,網絡信息資源開發利用有著良好的發展條件,機遇和挑戰并存。首先,我國現階段在數據挖掘、數據倉庫、搜索引擎、元數據等技術上與科技發達國家還存在著差距[2],如何使用先進的大數據技術來處理龐大的網絡數據,增強信息的采集、組織、分析和運用能力成為亟待解決的難題;其次,如何有效管理龐雜的信息資源也是急需解決的問題[3]。在互聯網時代甚至是移動互聯網時代,網民產生的海量數據雜亂無序,需要合理管理才能組織利用好這些數據,為生產生活創造價值。
大數據時代,網絡信息資源利用發展迅速,但人們的從眾心理會導致盲目投資,很多人往往在沒有徹底弄清大數據的發展形勢前就跟風操作,這會加重網絡信息資源管理的負擔,不良的大數據產業還會帶來行業風險,信息的真實性和可靠性得不到保障。
3大數據時代網絡信息資源開發利用策略
3.1提升大數據技術水平
我國的大數據技術水平與美國等科技發達國家還存在差異,要利用好網絡信息資源,進行有效合理的開發,就一定要掌握核心技術。
大數據核心技術有:①Hadoop,是一個能對大量數據進行分布式處理的軟件框架,Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的;②Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統。Storm可以非常可靠地處理龐大的數據流,用于處理Hadoop的批量數據;③RapidMiner是世界領先的數據挖掘解決方案,其數據挖掘任務涉及范圍廣泛,包括各種數據技術,能簡化數據挖掘過程的設計和評價。
3.2加強網絡信息資源的引導和管理
大數據時代的社會輿論環境非常復雜,互聯網時代,每個網民都是大數據的生產者和接受者[4]。首先,有關部門要疏通網絡輿論環境渠道,善于利用大數據技術分析解剖輿情問題,提取采集有價值的網絡信息,整理網民關注的焦點和熱點問題;其次,對于網絡信息資源反映的問題提出有效的解決方案,甚至可以預測問題、提出預警。對于網絡行為進行數據挖掘,從而得到經濟、政治、社會層面有價值的信息資源。比如在淘寶網上,通過用戶的購買數據和瀏覽數據得出用戶偏好,在后臺處理這類信息,形成商品推薦呈現給用戶,以此增加用戶購買行為概率,提高潛在經濟效益。
大數據時代應以先進的管理方式來進行網絡信息資源的開發利用。基于大數據的4V特征,一般的管理方式是難以駕馭大數據的,所以新型的先進管理經驗應運而生。要利用數據挖掘和數據倉庫技術對大數據進行管理。數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系的信息過程。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。這都需要專業的管理人員進行操作與管理,對大數據時代下的網絡信息資源管理提出了更高的要求。
3.3制訂相應的政策推動網絡信息資源開發利用
在大數據時代,網絡信息資源的開發利用可以深入到上至國家下到個人的各個層面,數據的真實可靠性、個人的隱私也都會受到影響。國家不僅要在促進大數據發展上制定相應的政策,還應該加強宏觀調控,制定政策和法規,用相應的法律來進行約束管理。
我國相關機構要建立符合實際的技術、人才、財政等政策保障體系[5],為大數據產業發展營造良好環境,生產并提供適合受眾的網絡信息資源與服務。在經濟政治條件允許下,可以建立大數據創業園區,集聚大數據開發運營企業,對相關企業提供便利條件或相關支持,從而促進網絡信息資源的開發利用。
4結語
大數據時代的歷史潮流勢不可擋,大數據與互聯網相輔相成,共同發展。大數據時代的網絡信息資源開發利用成為連接兩者的橋梁。隨著科技發達國家對大數據的重視,國家之間的實力對比也逐漸成為信息力量的權衡,網絡信息資源在國家領域和日常生活中越來越占據主導地位。我國應緊跟大數據時代的發展潮流,加緊對網絡信息資源進行有效地開發和利用,以提升綜合國力和核心競爭力。
參考文獻參考文獻:
[1]張欣.大數據時代的網絡信息內容建設管理[J].新技術,2015(5):119.
[2]嚴頌.大數據時代的網絡信息內容建設管理[J].成都行政學院學報,2014(1):1922.
【關鍵詞】大數據 基礎數據結構 軟件工程 數據標準
隨著智慧城市建設項目的開展,作為智慧城市建設的重要基礎就是圍繞大型基礎數據平臺的建設,在業界定義為大數據時代的來臨。圍繞大數據的概念,在全國范圍內的各領域各行業都在大數據的如何組織、如何應用、如何共享、如何關聯召開了各類研討會。大數據應用的云計算技術、數據倉庫技術等成為業內討論的重要話題。本人認為,在做了這些工作后,應回過頭來看一看,無論數據量有多大,都離不開基礎數據結構與體系的建設,在此要闡明的一個基本觀點就是在大數據時代更應該重視基礎數據結果的研究與應用。
1 大數據的概念
什么是大數據, IBM 最早的定義是:將大數據的特征歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同。
在大數據概念中的第一條是數據量大,這是大數據的特點,而卻隨著信息系統應用的深入,數量的數量級也在不斷的提高,這是毋容置疑的。我們在此要討論的是第二條數據類型繁多的問題。
2 目前大數據應用存在的主要問題
隨著信息化系統應用的深入,在社會、自然界、生活中所涉及的數據面越來越廣,由此使得數據類型也越來越多,數據類型的數量在不斷增加,這些數據類型之間的關系和相互關聯性也越來越復雜,大數據量下的數據應用造成了困難。數據結構類型繁多造成問題主要表現在以下幾個方面。
2.1 數據類型是有限量的認識不清楚
未來大數據情況下,數據類型是有限量的還是無限量的概念模糊,為此首先要么明確一個基本的概念,那就是,數據類型在繁多,但是數據類型的數量是有限量的,只是這個限量的數量級大一些而已。在數據類型是有限量的情況下,對于解決數據類型繁多的方法是完全不同的。
如果數據類型的量是無限量的,那么解決問題的方法是要研究解決數據類型問題的方式是研究規律,拿出解決問題的方式與方法,對于具體數據類型時,按照方式方法理論與技術去解決問題。如果數據類型是有限量的話,那么解決問題的方式就不只是從理論上的解決問題方法,而應該更加切合實際的去針對每一種數據類型直接進行研究,形成數據標準,指導各個系統對每一個具體數據類型的應用。
2.2 相同數據在不同系統中的表現類型繁多
由于系統開發方各自的開發經驗、所開發系統的規模不同,系統應用方對系統要求不同,系統應用行業的不同,使得在開發過程中,對于數據類型的定義只遵循本系統使用需要進行定義,沒有完整的標準,即是有相應的國家或國際標準,也不能完全遵循。
2.3 各個行業制定的標準相互矛盾
各個行業在制定相應的標準時,是以滿足自身需要為主導,造成了數據類型在其數據定義時不但長度不同,就是數據類型都不相同。這也就造成了各個系統在未來大數據應用中出現了嚴重的數據應用障礙。
2.4 大數據應用的實現效率低
由于不同系統技術數據結構的不統一,使得對于大數據的應用上要對不同系統的數據結構進行分析,構建關聯,而后才能進行數據的應用,這項工作的工作量大,技術含量高,降低數據的應用效率。這些都是事后分析數據存在的問題。
2.5 數據浪費巨大
由于數據各個系統間數據結構的不同,加上分析手段的局限性,使許多的數據無法進行使用,由此也降低了數據的使用率。并造成數據的大量浪費。
3 造成目前對大數據應用存在問題原因
由于以上幾方面的問題存在,為了做好大數據的應用,許多相應的技術應運而生,數據倉庫技術、網格技術、云計算的數據處理技術等等。這些技術促進了數據應用的發展,提高了數據應用效率,為大數據應用發揮了巨大作用。但是這種做法只能針對具體的大數據應用項目起到作用,不能從根本上解決問題。那么造成這種問題根本是什么呢?
3.1 理論基礎有偏差
目前所有這些高精尖技術的發展,為大數據應用的發展起到了不可替代的作用,但是這些技術在理論出發點上存在偏差,那就是,這些技術的理論出發點設定的是,數據類型是無限量的,是無窮盡的,所以所有的技術研究都不面對具體的數據項,這樣做的結果是促進技術的發展,弊端是不能面對具體的應用,所有的技術應用都要在這就技術下進行二次應用研究。也就是,這些理論是治標不治本的做法。
有限量數據類型與無限量數據類型是兩個根本不同的概念,對于技術的發展影響也是完全不同的。為此,目前在無限量數據類型概念下的大數據應用技術與體系將會存在極大的局限性,對未來的大數據應用造成影響。
3.2 對大數據認識有偏差
目前在各個系統對大數據的應用中,對大數據的認識是,只要有足夠量的數據,就是大數據,而對于數據之間的關系,整體的數據結構體系沒有很深的認識,甚至將原有的多個分散的系統中的數據庫,做一個小的關聯數據庫,就認為是數據云計算,就是綜合數據平臺了,而在這種情況下,對于大數據的應用,因為系統的獨立,數據庫的獨立、數據結構的不統一造成了大數據應用的瓶頸和障礙,在系統應用到一定程度后,數據量是很大,但是無法進行大數據應用,或者說是要進行大數據的應用,需要另外投入很高的成本進行數據整理、數據管理和數據分析。所以應該明確的是,在數據結構混亂的情況下,在大的數據量也不能稱為大數據,這個觀念上的偏差,是造成目前數據應用困難的原因之一。
3.3 數據結構不規范
這些情況的出現,歸結的一起,就是數據結構不規范,不統一。在三方面主要原因造成這個局面,一是目前的應用系統的開發,由不同的公司進行,每個開發單位對數據結構的定義有各自的標準,基本都是按照多年開發經驗總結出來的,因此各個公司開發的系統在數據結構上相差很遠。二是對于同一個公司不同時期開發的系統所涉及的數據結構不統一,到后期,開發單位不愿意在投入成本對前期開發的系統進行重新開發,這就造成了前期開的的系統中的數據結構與后期開發的數據結構不統一。三是對于應用開發單位在開發每一個具體應用項目時,由于是不同的開發小組在進行,為此,在進行數據結構設定時,只為了滿足本系統開發的需要,而沒有考慮系統未來的發展和系統的整體架構,這也造成了不同應用系統中對相同字段的設定不相同,數據結構不統一。以上這些都是在應用系統開發過程中遺留的問題,而這些問題嚴重影響了大數據的使用。
3.4 有統一的標準不用
在系統開發過程中涉及的數據結構,許多都有相應的標準,主要有以下幾個方面,一是國家法律層面的,對于一些重要的數據要求以立法方式進行規范。二是國家標準,制定和規范了國家層面的有關方面的數據要求和限定。三是部頒標準,由各個部委辦局制定的相應標準,這些標準有一大部分直接針對信息化系統建設的應用和數據標準。四是行業標準,作為每一個行業內進行行為約束的標準,這種標準雖然不具備強制性,但是在行業內是一個自覺遵守的標準。四是國際相關標準,雖然國際標準沒有任何的法律約束性,但是為了走出去,各行各業都在遵循這個標準。
這些標準都是在系統建立時的數據結構依據,但是目前許多系統在進行數據結構設定時,都沒有按照這些標準執行,而是根據自己系統的需要進行設定的。這使得許多的系統中的數據不能相互交換使用,由此而影響了大數據的應用。
3.5 不同行業對標準的設定不統一
在國家標準體系中,由于標準制定的年代不同,同是一個部門頒布的標準對相同的數據要求也不同,各個部門由于獨立制定標準,同樣出現相同數據在不同部門制定的標準中規定的不同,這幾方面原因也就造成了即使遵照標準,也存在著相同數據在不同應用系統中的數據結構不同的現象。
以上是大數據應用問題出現的主要原因,作為大數據應用的剛剛起步階段,應針對這些問題進行研究給出相應的解決方案,為未來大數據應用的發展打下一個良好的基礎,避免今后的大數據應用走彎路。
4 解決大數據應用問題的對策
解決大數據應用存在的問題,應從最基礎的數據結構建立開始,從根本上去解決問題,也為未來大數據應用的發展打下一個良好的基本數據結構基礎,對此提出以下幾方面的對策。
4.1 開展和加強對基礎數據結構建立的理論研究
從軟件工程學的角度出發,以數據結構類型是有限量的概念為依托,圍繞具體的數據類型開展數據結構體系的理論研究。依托一個數據結構分類的理論體系來支撐整個數據結構體系的劃分,其中包括劃分方法、劃分層次、劃分的軟件工程學理論支撐等內容,制定大數據底層數據結構劃分的理論體系,形成在大數據下的數據結構構建的理論體系。
4.2 開展對具體數據結構的研究
按照建立的數據結構理論體系要求,對每一個具體數據結構進行研究,針對數據項的名稱、類型、含義、層次、結構、與其他數據的關系、涉及內容規定等方面制定出具體數據的標準。這項工作可以在有組織的情況下由全社會共同參與,按照指導理論的要求進行研究,這樣,隨著應用系統的不斷深入,所涉及的數據類型項將逐步擴展,最終實現數據的全覆蓋,而完成整個架構體系的建立。
4.3 制定相應的數據結構標準
對于由各個方面制定的數據結構進行分類、篩選、審核,而后想這些結構形成一個統一的架構體系,制定相應的技術標準,通過這個標準來規范應用系統的開發,形成完整的、規范的、統一的數據結構體系,為大數據應用打下堅實的基礎。
4.4 成立相應的機構來負責這項工作的完成
對于這項工作的開展,應在軟件工程相應的有關組織下,建立一個專門的機構,負責指導這項工作的完成。由這個機構成立專門的實驗室,負責整體架構的制定,數據類型項的搜集、分類、篩選,并形成統一的數據庫體系,為所有的應用系統的開發提供數據庫基礎支撐和服務。
綜上所述,通過對基礎數結構的研究與體系的建立,從根本上解決大數據應用的效率,充分發揮未來大數據的作用,簡化大數據應用的方式與過程。
參考文獻
[1]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013(04).
[2]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015(01).
[3]方璐.大數據時代的科學研究方法[J].浙江工業大學,2014.
作者簡介
全國乃至全球范圍內,政府部門將大數據運用作為順應經濟發展規律、提升政府治理能力、增強地區競爭優勢的新動力、新機遇、新途徑。加強對數據的分析和應用,有助于政府部門通過數據來合理制定產業政策、引導企業投資經營、培育新模式和新業態,推動實體經濟與虛擬經濟的融合發展;有助于政府部門提升經濟數據分析的能力,推動社會事業數據的共享,創新行業管理服務的模式,加快建設法治服務型政府;有助于儲備基礎戰略資源,帶動科技創新,釋放經濟潛能,創造區域經濟發展的潛在空間。
大數據在政府行業統計監測中應用的基本情況
目前,大數據在政府行業統計監測中的應用主要包括兩個方面,一是成為政府統計數據來源的補充渠道,實現原有的統計直報方式和大數據方式相結合,尤其是網絡交易數據的重要獲取來源,如利用信息技術手段整理第三方電子商務平臺交易數據以測算地區網絡零售額;二是成為政府統計數據質量的評估依據,將獲取的大數據作為傳統統計方式獲得數據的質量評估參考,如國家統計局利用中國銀聯跨行銀行卡消費數據評估社會消費品零售總額數據質量等。
大數據對政府行業統計監測帶來的機遇和挑戰
大數據在政府行業統計監測中機遇與挑戰并存,機遇大于挑戰。其中,機遇主要表現在數據獲取方式更加便利,先進技術逐步取代人工勞動使得統計效率更高、成本更低;數據獲取頻率更加密集,可以實現全天候實時監測,逐日更新更替數據信息;獲取數據數量更加豐富,可以實現多維度、多區域的數據開發和整理;獲取數據質量更加精準,尤其針對小而散的網絡零售企業,信息技術獲取的數據更加全面和準確;挑戰主要表現在對政府統計能力和統計理論帶來的挑戰,一方面政府統計對大數據運用的需要一個漫長的周期,原有統計制度和現行統計方法雙軌運行的模式需要磨合,另一方面政府統計人員對大數據的理解和認識需要一個較長的周期,缺少具備大數據理論和技能的專業統計人才。
大數據環境下政府行業統計監測的發展原則、內容和方向
電子商務行業統計監測是新形勢下政府行業管理的一項基礎性、開創性的工作,應在摸索中不斷創新突破,使得電子商務行業統計監測能夠滿足政府行業管理的需要。
(一)主要原則
電子商務領域應用大數據開展統計監測具有涉及面廣、技術要求高、公益性明顯、變化性大、安全性要求高等特點,因此在應用過程中應堅持以下原則:一是合法性原則,應用大數據技術進行數據采集和整理過程中,要遵守現行的法律法規,在合法的范圍內安全使用;二是科學性原則,對數據進行過濾和加工時,數據模式和方法要科學合理,確保數據的權威性;三是開放性原則,數據不僅作為政府決策依據,還應將大部分作為公共資源向全社會共享;四是穩定性原則,數據來源實現多渠道,技術手段、數據模型等要及時更新,以保證數據根據實際需要實時;五是標準化原則,加快數據采集、指標口徑、分類目錄、數據交易、安全保密等關鍵共性標準的制定和實施,充分發揮標準在數據開發應用中的保障和支撐作用;六是市場性原則,數據開發要與市場需求結合,以保證數據開發應用的具有持久生命力。
(二)建設內容
作為一項系統性的工作,電子商務領域應用大數據開展統計監測工作過程中要著力構建三大系統:一是技術系統。要把先進技術放在基礎性的地位,包括信息技術、數據模型、智能設備等,采用的技術要與行業最新發展的趨勢相匹配,同時還要著力打造具有自主知識產權的技術和平臺。二是應用系統,針對不同市場主體和需求,開發標準化和個性化的產品和服務,并打造方便用的可視化界面和系統,實現需求方和服務方的有效溝通,推動技術研發與市場應用的融合互補。三是制度系統,建立一套從數據采集、存儲、整理、分析、、保密等管理制度,建立相應的數據管理組織構架和績效評價機制,以保障電子商務大數據開發應用工作的有序進行。
(三)發展方向
未來政府在電子商務領域開展大數據應用與開發,個人認為既要遵循電子商務發展的規律,也要立足現行的政策條件、技術條件,并根據各地實際情況和需求,按照“統計規劃與行業管理相結合、統計成果與產業應用相結合、統計手段與先進技術相結合、統計水平與國際水準相結合”等“四個相結合”的方向,建立健全應用大數據開展電子商務統計監測工作的體系,為經濟社會發展提供有力的大數據支撐。
統計規劃與行業管理相結合。電子商務大數據的開發應用首先要以服務政府行業管理工作為出發點和落腳點,確保大數據的開發應用與行業管理的熱點、難點、重點領域相吻合,做好以電子商務交易額、網絡零售額、居民網絡消費等為代表的政府考核數據的開發,同時不局限于電子商務領域,逐步向旅游、票務、交通、餐飲、住宿、中介、醫療、文化等經濟領域延伸,確保統計工作服務于各領域行業管理部門的需要。
統計成果與產業應用相結合。數據是基礎,應用是關鍵。電子商務大數據統計的成果要與政府部門在電子商務領域具體的工程、項目相吻合,使得統計的成果能夠直接應用和服務于電子商務促消費、穩增長、調結構、惠民生等方面的具體工程,為電子商務領域各項重點工程和項目的設計、監測和評估提供數據參考,同時也為企業經營決策、個人創業創新提供數據參考,提高數據成果落地的實施速度和社會經濟效益。
統計手段與發展前沿相結合。在電子商務大數據開發過程中,一方面,創新統計方法, 逐步擴寬通過技術手段獲取數據的范圍,探索建立符合電子商務發展特點的測算和分析方法,同時與原有的統計方法做好銜接,實現兩條腿走路;另一方面,提升統計技術,充分利用先進智能設備和前沿獲取技術,使得統計技術能夠適應電子商務快速發展和變化莫測的特點,及時、全面的獲取行業最新業態和模式的相關數據。
統計水平與國際水準相結合。政府部門在電子商務大數據開發的過程中,一是要加強與阿里巴巴、京東、亞馬遜等第三方電子商務平臺企業的數據共享和交換,二是要加強與高等院校和科研機構的理論探討,提升數據分析和研究的水平,推動電子商務理論的發展,三是加強艾瑞咨詢、尼爾森等國內國際知名第三方大數據公司的合作交流,確保數據來源、獲取方法、分析水平等全面科學、引領行業、接軌國際,提升政府電子商務行業統計分析的國際水準。
【關鍵詞】計算機技術 軟件技術 大數據時代 應用分析
1 引言
21世紀是科技的時代,計算機應用技術改變了工作的傳統模式,在市場競爭如此激烈的今天,企業要想在市場中取得發展就需要從計算機軟件技術方面入手,在節約人力物力的同時實現工作的整體效率,讓企業的運營模式更加的專業化、科學化。隨著云時代的到來大數據也逐漸被人們所關注,大數據時代給計算機信息處理技術帶來了好消息,可以說,大數據是繼IT行業在云計算與物聯網之后的又一次技術變革,對人們的生活、工作以及學習的影響很大,在企業的運營過程中數據是最為核心的資產,在大數據時代所有的企業都將面臨著來自多方面的挑戰,但這同時也是一種機遇與資源。就目前形勢來看,大數據時代的到來給了計算機處理技術帶來了機會,也對提高社會經濟效益有很大作用,本文就對計算機軟件技術在大數據時代的應用進行具體的分析與研究。
2 計算機軟件技術在大數據時代的應用
大數據時代最主要的應用核心就是在大量的數據中找到規律,從而找出與用戶的需求相一致的特點來進行設計、生產以及服務,大數據時代的計算機信息處理關鍵技術主要包括三個部分:
(1)虛擬化技術。該技術是根據虛擬的資源來進行管理,同時也能對這些大數據資源進行優化配置,在提高信息處理效率的同時也能提高靈活程度。
(2)云存儲技術。云存儲是由多個存儲單元組成的,它是一種由多種功能聯合在一起的協同工作,大數據時代下出現的云存儲技術為更好的解決海量信息提供了方便,同時完成對大量信息數據的計算也是在大數據時代下數據處理必不可少的環節。
(3)信息安全技術。在大數據時代之下,各種數據信息是有一定關聯的,這種關系之間的影響對數據的安全有一定的威脅,需要調整整個的數據管理系統,從而提高數據集群的安全水平。在未來的發展中,如果想要保證大數據信息的安全性就需要不斷的推進信息安全技術的發展。雖然大數據在我國的應用時間很短但是效果卻是很大的,大數據已經成為了一種發展趨勢并得到了人們的廣泛應用與支持,在未來的發展過程中,我國的計算機軟件技術方面還會遇到更多的挑戰,因此就需要各行業根據自身的問題制定出最符合自我發展的方案,讓數據處理技術能夠得到改革與完善,計算機技術應用于大數據時代下讓數據有更高的真實性、有效性。
在計算機軟件技術發展的過程中應該主要從三個方面入手:
(1)信息通信方面。通過利用IBM SPSS預測分析軟件就可以從很大程度上降低客源的流失,還可以從中找到行業運營過程中的問題,從而提供更快捷、更方便的發展平臺。例如通訊行業的發展就需要一些通信運營商通過計算機軟件技術來對客戶的相關資料進行整理,在這些信息中分析出目前的發展趨勢,然后將這些資料交給企業促進其經濟效益的提升。
(2)企業信息解決問題。利用企業運營管理軟件能夠有效的解決客戶資料獲取、風險分析以及雇員流動等問題,根據大數據時代的特征能夠為企業提供更好、更新的方法,在數據開發的過程中主要分成五個部分:1.抽樣。所謂抽樣就是在產品生產的過程中選取比較有代表性的作為樣本,樣本容量的選擇可以進行定位,但必須具有一定的代表性這樣更加方便于分析與操作。2.開發。通過開發、探索的方式來對數據進行分析能夠加深人們對數據的進一步認識,在開發過程中可能會涉及到對數據的導入、合并、選擇等步驟。3.修改。人們可以通過創建與選擇來對數據集進行修改,在修改的時候可能會涉及到變量的轉換、產品的編碼等等,然后再根據對應的數據進行分箱操作。4.模型。利用模型是為了讓預測的結果更加準確、可靠,同時這一步驟在企業解決方案的制訂中占有重要地位,也可以推動經濟效益的提升。5.評定。評定技術是先與模型進行對比然后由人員進行仔細的分析,在數據挖掘的過程中相關技術人員應該開發出新的方式,對數據進行分析與整合才能確保信息的準確性。在可視化的工具中用戶可以將數據找出來并以圖形的方式進行表示,人員就可以對數據動態有更加深刻直觀的了解,此外,SAS/EM還有一些特殊的工具,其中包括可以進行流程圖的評分操作的工具以及用于考察執行結果的工具等等。
3 結束語
綜上所述,計算技術在我國的發展迅速,我國在數據采集、分析以及存儲方面已經取得了很大的成效,隨著這些技術的不斷推進,使得我國相關部門與企業的整體效率得到明顯提高,企業的生產模式基本實現了自動化的運行方式,這是大數據時代帶來的優點,大數據的改革與創新讓計算機處理大量信息變為可能,這樣一來不僅信息處理的效率提高了,同時也能降低一定的成本,目前已經有越多越多的專業人員投入到了計算機軟件技術開發的工作中來,相信在眾多專業人員的共同努力之下,未來我國計算機軟件技術將會得到更大的發展,買上新的歷史階段。
參考文獻
[1]吳子紅.計算機軟件技術在大數據時代的應用[J].中小企業管理與科技,2014(09).
[2]崔寧.計算機軟件技術在大型結構實驗及現場檢測數據處理中的應用[J].產業與科技論壇,2013(21).
[3]劉濤.計算機整編軟件技術在地下水監測資料整編中應用[J].地下水,2013(05).
[4]劉孔瑜.淺析計算機軟件技術的發展與應用[J].企業導報,2016(08).
作者簡介
【摘要】大數據時代已經到來,在此時代背景下,各行各業都面臨著對龐大而復雜的數據進行有效管理的巨大挑戰,越來越認識到對自身產生和擁有的大數據進行有效管理的重要性和迫切性,檔案管理工作也不例外。
關鍵詞 大數據時代;檔案管理工作;功能作用
軍隊檔案管理是以保存部隊檔案并提供檔案資料為其他各項工作的一項重要工作,其直接面對著對元數據的收集、整理、鑒定、保管、檢索、利用等任務。然而面對當今各類信息、數據的大爆炸,傳統檔案管理的方式方法已明顯感覺有些吃力。為了較好的利用這龐大的數據為我部隊建設所用,我們引進當前時代的一個新名詞——大數據,用新的理念、方法和手段不斷改進、革新檔案管理工作。
1大數據對檔案管理工作的影響
哈佛大學社會學教授加里金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程”。大數據技術能實現所有數據的融合,減弱了對“因果關系”的要求,取而代之的是數據間的相關關系,給人們的生活、工作乃至思維都產生了巨大變革。可見,大數據時代的到來,對整個世界都已經產生了巨大影響,具體到軍隊檔案管理領域,大數據的功能作用以及其對檔案管理工作的影響則主要表現在以下幾點:
一是分析判斷能力強,方便了電子文件的鑒定和索引。大數據時代,電子文件以指數級的速度增長,給電子文件的管理帶來了前所未有的挑戰,雖然我們知道浩瀚的電子文件中蘊藏著巨大的“金礦”,但我們逐漸發現想要從這些電子文件中“淘金”比紙質文件還困難。面對著巨量的電子文件,逐一閱讀每一份電子文件的原文恐怕實在是無能為力。而大數據技術的強大功能作用為上述問題的解決提供了有效的幫助。在普通的硬件上安裝大數據轉發器,就能收集數據形成的龐大的系統數據,大數據軟件可以為機器生成的海量數據建立索引,將其整理成可以搜索的鏈接,這正是檔案工作迫切需要的技術。除此之外大數據技術還能完成數據的分類、數據的挖掘,從而使檔案管理擁有應對越來越復雜的數據的分析能力。
二是處理技術手段高,解決了非結構化數據的處理難題。大數據類型繁多,包括結構化數據、半結構化數據和非結構化數據,至2012年末,非結構化數據占有比例達到整個數據量的75%以上。面對著快速增長的非結構化文件,檔案工作者在進行電子文件管理時困難重重,現在基于大數據技術的數據庫,如SQL已經既可以做關系數據,也可以做空間數據、圖像、數據流等非結構化數據,而且基于對象的存儲架構可以在一個系統中管理十億級別的文件數量,還不會像傳統存儲一樣遭遇元數據管理的困擾,大數據技術為檔案工作者管理非結構化電子文件的問題提供了解決之道。
三是數據存儲容量大,避免了海量信息和數據的丟失。近年以來,在檔案數據庫的使用過程中,常常會碰到無法向數據庫中增加新的檔案數據的情況。要想安全地存儲巨量的檔案數據,不可能一味的蓋大樓、蓋機房,這就要求我們必須優化存儲、提高效率和節約成本,其實比起其他諸如電信行業、通信行業、電子商務等行業面臨的數據存儲空間問題,其實檔案行業的存儲空間問題只是小巫見大巫,大數據在計算機領域已經具有相當的成熟度,這也說明大數據技術對于解決存儲海量數據問題的有用性,這些公司使用大數據的經驗對檔案行業解決數據的存儲問題具有高度的借鑒意義。
2檔案管理運用大數據的策略
既然大數據時代已經到來,而且其功能作用對部隊檔案管理工作有著較為深遠的影響,運用得當,大數據將給我軍檔案管理工作帶來前所未有的成功,那么如何將大數據的理念較好地運用到檔案管理工作中來呢?
2.1建立檔案資源管理中心
大數據技術支持龐大數據的存儲和處理,使檔案資源的統一管理成為可能。為了維護檔案的安全及對檔案資源的綜合掌控,檔案需要備份,目前檔案館采用的是檔案的電子備份,檔案部門是否可以在全軍范圍內建立一個區域或者檔案備份中心,并且各部隊檔案部門能夠做到資源共享呢?只要通過嚴密驗證和科學規劃,這一措施是完全可行的。若全軍的檔案數據資源能集中起來,那么利用大數據進行檔案資源的管理、開發和利用將指日可待。
2.2培養大數據分析的專業人才
外界企業通過尋求和專門的大數據開發公司合作,較好的運用了大數據技術。而檔案管理牽扯到部隊保密工作,若想引入大數據,又要有效防止信息數據的泄露,就必須加緊健全信息化檔案管理人才隊伍,花大力氣培養大數據分析的部隊專業技術人才,方能有效避免擁有大量數據卻不懂數據分析的尷尬。
2.3開發大數據分析工具
部隊檔案管理區別于地方,存在特殊性和敏感性。這就要求我們必須結合部隊實際及檔案建設的特點,開發出一套符合我們自己的大數據分析工具。
3檔案管理運用大數據應注意的事項
盡管大數據能給檔案管理工作帶來諸多好處,但是這也不能掩蓋大數據背后存在的風險和隱患。一是失泄密問題。檔案信息資源的開發和利用會涉及到檔案信息的泄密、檔案信息的丟失和篡改等問題,如果這些數據信息被敵特分子竊取,將給我們國家安全造成強烈的影響。二是預測分析錯誤問題。畢竟,大數據的核心思想就是用規模劇增來改變現狀,其打破我們傳統思維模式,將重點關注在“相關關系”上,所有預測分析都會有失誤的時候,運用大數據預測來判斷和懲罰官兵的潛在行為,這是對公平公正以及自由意志的一種褻瀆,同時也輕視了決策過程中深思熟慮的重要性。三是濫用職權的工具。如果我們冒險把部隊事故案件的防范交到數據手中,這實際上是一種濫用。應用得當,大數據會是我們合理決策過程中的有力武器;倘若運用不當,它就可能會變成部分人員濫用職權的工具,輕則傷害官兵的利益,重則損害官兵的人身安全,所冒的風險比想象中要大很多。
大數據時代的來臨,對檔案管理工作來說既是機遇也是挑戰,檔案工作者需要努力抓住這個機遇,同時也要嚴肅對待風險與挑戰,隨著大數據技術的發展和完善,大數據必有廣闊的應用前景,檔案管理在大數據時代將獲得巨大的突破,檔案信息資源中蘊藏著的巨大知識寶藏將會真正得以開發和利用。
二、大數據管理工程檔案與工程管理模型
大數據管理工程檔案也是一個信息的整理的過程,本文在整合管理工程檔案現有模型研究的基礎上,結合大數據時代的來臨給管理工程檔案的實施帶來的挑戰和機遇,通過大數據管理工程檔案來促進工程的發展,分析了的大數據時代來臨下針對管理工程檔案的雙向決策模型,分別從工程評估與預測及工程監測與預警兩個維度構建了針對大數據管理工程檔案的方案[6]。因此,在本文中,針對大數據管理工程檔案構建了兩種工程檔案管理的模型,第一個模型是數據驅動下的的工程監測和預警的模型,采用的技術是跟蹤以及聚類;第二個模型是目標驅動的工程評估與預警模型采用的技術是推送以及表征,如下圖1所示。1.工程內部集成檔案數據目標驅動管理的工程評估與預測模型。工程評估與預測模型的是目標驅動的一個模型,也即在工程內部的目標驅動下的模型,也就是說在這一模型中,工程的決策者需求清楚的界定自己目標需求,根據自己的目標尋求實現目標的路徑。可以使用普通的數據挖掘和收集的方法,利用工程信息系統中關于工程檔案數據收集、整理以及分析計算等方法來達到,通過收集的數據表征、檢索、可視化以及推送等技術實現工程檔案大數據開展有針對性目標的挖掘,從而把這些收集整理的數據轉化為可以為工程決策目標所利用的信息及建議。此外,工程評估與預測模型是于傳統的數據挖掘和收集的方法上發展的,結合計量學學科中的相關技術方法應用于工程檔案管理工作中,在目標驅動下對大數據時代來臨時工程的策劃、工程的實施以及工程的評估等工程檔案數據中的海量信息進行有效整理和探析,以達致管理工程檔案的效用,從而有效評估工程的發展情況,有效及時的對工程發展的最終目的進行預測。2.工程外部網絡信息建檔數據驅動管理的工程監測與預警模型。大數據時代來臨時工程外部網絡中有著海量的有用信息,這些信息對于工程建設中的新思維、新想法能起著啟發或促進作用,大數據管理工程檔案可以通過實時建檔對這些有效核心數據加以收集和利用,在工程實施過程中,可以通過大數據收集對工程發展有積極作用的新信息和新技術,同時對于工程的不利影響因素和工程競爭對手的一些相關技術進行監測,在監測后針對所有會發生的情況進行分析,最終建立起工程的預警和監測檔案數據庫,從另一個角度說,這也是建立工程監測與預警模型的最終目標。與工程評估與預測模型的目標驅動不同的是,工程評估與預測模型通過預先定下的目標,來根據目標收集和整理相關數據,而工程監測與預警模型則不同,其更為重視通過數據系統自主分析來對網絡輿情進行研究,大數據時代來臨時的輿情分析系統有聚類、熱點主題檢測等相關的計算機文本信息的內容識別技術。3.工程管理檔案大數據安全戰略體系構建。以檔案大數據的方式來對工程的實施進行管理有著安全的風險,這也是大數據管理工程檔案的存儲存在的新安全問題,一般來說,工程檔案數據的數量以及質量會對安全存儲系統的運行狀況帶來影響,大數據管理工程檔案中的安全存儲技術的升級速度較之數據增長的速度慢,因此,相應的面臨的大數據安全防護預警風險也大。
2大數據驅動下的教學模式探索
大數據在為軟件行業的發展帶來機遇的同時,也帶來了挑戰。從軟件工程教學的視角,我們分析大數據時代對于軟件工程教學的影響,提出運用大數據服務軟件工程教育、提升學生素質。
(1)理論與實踐并重。
軟件工程是一門兼顧理論與實踐的課程,為了實現培養應用型人才的目標,在實際教學活動中,往往圍繞著能力培養開展教學,重視培養學生的工程實踐能力,卻忽視以知識為中心的教學模式。我們并非提倡以講授軟件開發過程中的理論知識為中心,而是要求不但注重學生實踐能力的培養,還要重視強化學生的理論基礎。重視軟件工程前導課程知識的銜接,例如數據結構、算法設計與分析,還要將軟件行業發展的最新研究成果和熱點內容,例如大數據下的軟件工程思維,及時地安排到課程教學中。通過將工程實踐的新技術與新方法融入到軟件工程的理論教學中,促使學生在掌握扎實的基礎理論知識的同時,引導學生自我構建與現代軟件工程發展相適應的知識框架。
(2)協同開發。
當前軟件工程面臨的主要挑戰是合理分工,如何明確軟件企業內部的職能分工、各技術崗位的職能范圍、權責和工作內容。大數據環境下,軟件工程方法由邏輯驅動轉變為由數據驅動。由于主要面向分布型應用和程序,軟件開發從封閉走向開放,開發人員通過分享和交互進行開發。在此過程中,應重視協同開發。采用團隊協同模式開發軟件項目過程中,根據學生的知識和能力進行組隊,不僅要明確團隊成員的職能范圍和工作內容,還要明確需求分析、系統設計、代碼編寫、系統測試人員之間的權責。此外,在參與大型軟件的開發實訓中,還有細分相同角色人員的具體分工。在協同開發教學過程中,我們要避免學生自由組隊造成的“馬太效應”。根據教學實訓發現,學生自由組隊,容易造成強強聯合。編程能力強的學生組隊,能夠較好的完成實訓項目,但是弱弱組隊卻無法順利的完成實訓任務。為了在協同開發中,培養學生的溝通表達能力、團隊合作能力,我們在教師的引導下,引進團隊制約機制。每個開發團隊通過強弱聯合組隊,每個團隊既是軟件開發者,同時也是軟件需求者。作為軟件開發者時,需要和軟件需求方討論需求分析、系統設計;作為軟件需求者時,需要提出自己的軟件應用要求。開發者和需求者的雙重身份,保證團隊之間只有經過充分的溝通,才能完成軟件的開發。團隊制約機制使得學生在較短的時間內,能夠扮演多種開發角色,熟悉軟件企業的業務流程。
(3)合作創新。
大數據時代,面向服務的軟件工程、群體軟件工程得到了廣泛的應用和發展。在開放環境下,面向分布式應用和分布式的開發模式,需要充分利用網絡進行任務分配、創新解決方案。作為實踐性較強的學科,在實踐中研究以數據為驅動的軟件設計模式,有利于增強學生的創新意識。學校重視在軟件工程的實訓中培養學生的創新能力,積極鼓勵學生利用學校軟硬件平臺,申請學校科技創新課題,或者參加教師的軟件設計相關的科研項目。依托校企合建的軟件工程創新實驗室,通過完成“基于計算機視覺的胡蘿卜智能分級系統”、“基于MVC的上機考試與在線練習系統”等科技創新課題,激發學生的合作溝通技巧,提高學生軟件工程的創新能力。通過參與教師的“基于計算機視覺的花生品質品種自動檢測系統”、“茶樹病蟲害遠程專家系統”等應用項目開發,在實際的項目研發中促進學生解決問題能力、創新能力的提高。通過分析當前的校企合作辦學模式存在的問題,以及大數據時代的產業需求,學校與軟件企業在教材建設、教師培訓、實訓平臺、企業服務等方面建立合作關系,充分利用企業的技術優勢,以培養應用型人才為共同目標的基礎上,實現學校、企業各自創新活動。出版了《設計模式(Java版)》等應用型教材,從理論、應用和實例三方面出發,幫助學生了解軟件工程的最新模式,提高學生的實際動手能力和創新能力。在軟件企業實訓基地,通過定制的實訓解決方案和軟件企業提供的實訓服務,學生在企業技術人員的指導下,重新開發“海爾OEC日志管理系統”等大型軟件。不但鍛煉了學生的團隊合作精神、增強了自身的創新意識,而且在工程實訓中個人能力和素質也得到鍛煉和提升。
隨著信息技術的廣泛應用,人們逐漸步入到大數據時代,大數據時代讓人們的生產生活方式都發生了改變,讓人們的生活變得更加便捷,同時也為企業提供了發展的條件,促使企業在新時代背景下得到更好的發展,但在便捷的同時也為人們帶來了新的挑戰和機遇,尤其是軟件工程的發展,相關研究技術人員要在掌握軟件工程技術的基礎上,加強對軟件工程技術應用的創新和改革,為軟件工程技術提供更多的發展條件。
一、大數據和軟件工程技術的發展方向
(一)大數據和軟件工程技術的開放式發展隨著科學技術的快速發展,互聯網技術逐漸應用到各個領域的發展中,隨之隨著互聯網技術的廣泛應用,人們逐漸進入到大數據時代,大數據的到來讓計算機技術得到了改革。大數據要想得到更好的發展,就必須要開發和尋求發展的途徑,在產生大量數據流的基礎上,不斷的創新優化技術。計算機軟件工程技術要想得到更好的發展,就要加強建設計算機網絡的開發環境,讓計算機在開發的環境中實現相互通信、資源共享,提升軟件的利用率。此外,網絡在運行的過程中可以增加利潤,讓不同用戶都能滿足需求,從而節約資源,提高資源的利用率。
(二)大數據和軟件工程技術應用到其他領域隨著大數據時代的到來,對計算機軟件工程技術又提出了新的要求,要將計算機軟件工程技術和大數據技術進行有效的融合,從而更好的服務于社會。目前,軟件工程技術已經得到了各行各業的廣泛應用,由于軟件工程技術對各領域都起著推動作用,讓各個應用程序都能得到有效的運行,同時還可以對相關平臺的數據信息進行收集并整理分析。如:用戶在購買股票對大數據進行分析時,可以利用軟件工程技術對大數據信息進行構建數據模型,利用數據模型,預測股票的變化形勢。
二、大數據時代下軟件工程技術的應用
(一)安全信息技術的應用在大數據時代背景下,其產生的大量數據流之間會有一定的聯系,但數據也會因此產生不同程度的影響,所以,要想提高數據的實效性和安全性,就必須要科學、合理的管理數據系統。在一般情況下,大型的數據信息平臺都是開放式的,隨著互聯網信息技術的快速發展,互聯網信息技術逐漸應用到各個領域中,它讓人們的生活更加的便捷,但在便捷的同時也存在一定的風險,隨著時代的發展,人們逐漸進入到大數據時代,在大時代背景下出現了較多的黑客,這些黑客利用大數據的漏洞進行違法操作,這對數據的儲存和分析產生嚴重的影響,因此,在大數據背景下,要加強軟件工程技術的應用和建設,為數據的實效性和安全性提供有效的保障。
(二)進行數據信息采集大數據的發展依據是對數據信息進行采集整理分析,在軟件工程技術中對數據信息進行采集整理分析也是非常重要的部分,因此,在大數據時代背景下,可以通過軟件工程技術的應用,對相關數據信息進行采集整理分析,同時還要提升各個軟件之間的協作能力,擴大數據信息的儲存空間。此外,用戶在運行軟件工程技術過程時,可以根據用戶的需求,對相關對數據信息進行采集整理分析,同時還要將多余的數據進行刪改,從而降低大數據的數據采集成本,讓用戶在對大數據進行進行采集整理分析時,提升處理效率,以此來為軟件工程技術的提供更好的發展和應用條件。
(三)進行數據信息儲存隨著大數據時代的到來,數據信息逐漸從G和T轉變成ZB,且數據信息在進行儲存時,儲存在內容不再單一的文字了,其內容包含圖形、文字、視頻等形式,由此可見,在大數據時代背景下,對計算機的性能和儲存空間又提出了新的要求和挑戰,要求在大時代背景下進行數據儲存時,避免出現數據信息缺失的現象,而軟件工程技術可以有效的解決這一問題,它不僅可以提升數據信息的儲存空間,而且還能提升儲存數據信息安全性能,可以有效的防止儲存的數據信息缺失。除此之外,在大數據時代下應用軟件工程技術,可以通過利用軟件工程技術中的云技術,將數據信息進行云端儲存,提升計算機的儲存空間,以此來提升計算機儲存空間的利用率。
從解決實際問題出發,不論是需要作出重大決策還是改變小小的設計,騰訊在利用大數據的時候有其自身的優勢,那就是騰訊擁有海量的數據。業界有一種聲音是忽略大數據的“大”,關注數據本身的價值,而在騰訊這里,“大”甚至無法回避。比如,根據騰訊云分析《2014年第二季度移動行業數據報告》的數據,接入騰訊云分析的APP覆蓋設備超過15億。
如果單個數字不足以說明什么,那么還有以下這幾個數字:
即時通信QQ活躍帳戶數達到8.29億;
QQ智能終端月活躍帳戶數5.21億;
即時通信QQ最高同時在線帳戶數達到2.06億;
“微信和WeChat”合并月活躍帳戶數達到4.38億;
“QQ空間”月活躍帳戶數達到6.45億;
QQ空間智能終端月活躍帳戶數4.97億;
(數據來源于網絡)
探尋大數據先行者的足跡,騰訊是國內最具代表性的企業之一,而其對“大數據、小場景”的認知,更是在大數據的實際應用中走到了前列。
從一個小小的按鈕說起
很多人無法將大數據概念和具體實踐聯系起來,是由于對大數據這一概念的“仰望”,好像大數據是突然有一天憑空生出來的一樣。而事實上,“在大數據這個概念被包裝出來之前,互聯網公司就已經很認真地在使用相關的方法和技術,” 陳磊表示,“這些方法和技術實際上是一直應用在我們日常工作當中的。”
陳磊講到騰訊在設計產品時的一個場景:“我們界面的設計都是在測試用戶行為的基礎之上進行的,我們很少憑空去想用戶會喜歡什么樣的設計。”比如在設計一個按鈕時,其擺放的位置、包含的文字,包括顏色、形狀這些都會做各種各樣的嘗試,而最后采用哪一個選擇,要看用戶在實際使用中對這個按鈕的點擊率。可以說,除了要在整體的風格上保持一致,很多設計都是以最終用戶的行為作為依據的。
互聯網是大數據最先改變的產業,這與互聯網企業的文化也有關系。陳磊表示,互聯網企業不認為通過自己的想法能夠很準確地把握用戶需求,而讓用戶去試的時候,用戶會用他的行為投票。“所以互聯網公司講究摸著石頭過河,最主要的原因是希望在不斷嘗試的過程當中,發現用戶真正的需求而更好地滿足它。”他說。
通過大數據的方法來準確地把握用戶需求,來指導一個按鈕的設計,騰訊就是這樣將大數據應用到這些小的場景中。實際上,騰訊對產品的每一個功能都會去做AB測試。
動態運營,將決策權交給用戶
騰訊的很多產品版本更新非常快,由于每次新版本下發都需要用戶去下載安裝才能更新。這需要對每個產品都進行用戶管理的研究:從用戶開始使用這個產品,到這個產品的使用達到一個高峰,再到最后一些用戶選擇棄用,騰訊將這些環節叫做拉新、留存和流失。陳磊表示:“我們會分析流失客戶的特征是什么。他在使用這個產品的時候,和在流失之前行為發生了哪些改變。通過用戶使用產品的數據做了這樣的分析之后,我們大致就能夠理解某一類用戶離開這個產品的主要原因,進而在產品上做一些改造,讓這類用戶對我們的產品更有黏性。這些都離不開數據和數據分析。”
產品在研發過程當中根據用戶的使用習慣不停的調節,這個過程叫作“動態運營”。所謂動態運營的理念,將每一件事情都看作是一個小小的實驗,或者將大項目分解為很多小的產品步驟,每一步都很小,這樣每一步走對了或走錯了,能夠快速得到反饋。
陳磊說,過去很多企業運營的方法是先制訂戰略,然后根據戰略去分解執行,半年之后總結執行情況。在今天,這種緩慢的應變機制是行不通的。
動態運營將產品更新的決策權交到用戶手中,這就是業務前線化(FOT)中后段決策讓位于分布式前端一線決策的例證。大數據為動態運營提供了有力支撐。
讓廣點通脫胎換骨
大數據對廣點通影響可謂脫胎換骨,關鍵的一件事情就是對數據的實時處理和采用。據陳磊介紹,過去廣點通只能將前一天的用戶點擊行為進行數據分析,在第二天來使用,顯然無法滿足廣告業務的要求。在大數據的支撐下,騰訊逐步將分析方法變成相隔一個小時,15分鐘,到最后做成只差幾秒,數據就能夠回流,并且能夠在下一次給用戶展示廣告的時候去使用。
據悉,廣點通不僅對數據的實時性要求非常高,對數據的準確性要求也一樣。例如,一些用戶填寫的數據未必是真實的,在數據的采集和流轉的過程中,對海量數據的保真提出了挑戰。騰訊在應對數據的海量、精準和實時的挑戰過程中研發了大量的產品。
為不同的用戶做精準推薦
騰訊與小米曾有過兩次合作,第一次是紅米手機,在90秒鐘訂出十萬部手機,第二次是紅米Note開售,在第一秒的時間有41.9萬次點擊。從最后的結果上看,這兩次活動做得非常成功,其背后除了小米營銷策略的功勞之外,騰訊利用大數據找到對紅米手機有潛在需求的用戶并精準推薦也是原因之一。
另外一個案例是騰訊通過大數據的手段去運營《穿越火線》這款游戲。在這個游戲的熱度開始下滑的時候,騰訊利用大數據做了大量的留存活動,這些活動是針對玩家喜歡這個游戲的原因去做的。陳磊介紹說:“比如一些玩家是因為有幾個比較好的朋友經常組隊去打游戲,那么我們通過好友邀請他,重溫一下過去打游戲的好時光,讓他再回來使用這個游戲;有一些用戶把某一類武器玩得非常好,但是這個武器已經打到極致了,這時候我們就會創造新的武器。通過這樣的方式來讓用戶持續玩這個游戲,要對這個用戶的特點有很清楚的認知。”
精準推薦的前提是用戶畫像,在游戲領域的應用著實超出想象。據悉,騰訊微博建立SocialData體系挖掘社交大數據為用戶畫像。
騰訊的大數據服務
大數據的實現需要IT基礎設施和工具的支撐,這里涉及很多技術方面的問題,騰訊很多的系統都是自主研發,比如數據采集的系統和任務調度的系統。至于其中的技術,并不是我們這次要探尋的重點,但這里還是要介紹騰訊的三類大數據服務,它們是騰訊在自身利用大數據以及用大數據服務客戶過程中留下的堅實的足跡。
目前,騰訊通過騰訊云給客戶提供三類免費的大數據服務:
TOD Tencent Open Data
Tencent Open Data是基于騰訊的大規模計算集群,提供數據采集、自助加工、任務調度等能力的云端大數據解決方案。其優勢在于:不用采購任何物理設備,即開即用;不用擔心數據量膨脹的時候無法擴展;只需要開發業務邏輯,其他部署、運行、監控都交給TOD。
例如,你可以用TOD分析apache訪問日志,定義一個每天都執行的任務收集訪問日志的有用信息,然后定義一個每周運行的任務匯總加工訪問信息,最后定義一個數據導出任務將數據導出生成周報。TOD能夠處理真實數據加工中各種不確定性因素。只要你設定了運行規則,TOD就可以確保任務流按照設定的規則運行。
信鴿
信鴿,是一款移動APP推送平臺,支持億級的通知/消息,能在Android/iOS平臺進行各類高級自定義的推送操作,秒級觸達移動終端用戶。開發者可以方便地嵌入SDK,通過API調用可或視化操作界面,實現對特定用戶發送通知/消息,提升用戶活躍度,激活沉睡用戶,并實時查看推送效果。
信鴿可為應用用戶設置多種標簽,包括地理位置、應用版本號、活躍度,更可結合行為的記錄自定義為“在深圳喜愛川菜的女白領”,“超過7天未登錄游戲的大學生”、“有高消費潛力的土豪”等。根據業務、用戶行為等圈定不同用戶群體并將其賬號保存成號碼包文件,通過信鴿前臺上傳,做特定的運營推廣活動,達到精準觸達用戶的目的。
信鴿pro高級標簽,可基于騰訊大數據優勢,基于玩家的在線時長,使用頻率,付費、登錄行為,游戲關卡的失敗率、道具使用購買統計等因子,建立流失用戶預測模型與付費用戶預測模型。模型可精準預測潛在流失與付費用戶,預測覆蓋率超過85%,準確率超過91%。利用信鴿對潛在流失用戶群推送針對性的營銷活動,回流率比隨機推送提升120%。
MTA 騰訊云分析
騰訊云分析是專業的移動應用數據運營平臺,支持iOS和Android。開發者可以方便地通過嵌入統計SDK,實現對移動應用的全面監測,實時掌握產品表現,準確洞察用戶行為。前面我們已經提到,2014年第二季度報告中,接入騰訊云分析的APP覆蓋設備超過15億。
騰訊云分析的功能及優勢包括:
(1)APP數據的收集:比如新增、活躍、留存、用戶畫像、渠道數據等等;
(2)行為分析:用戶在使用APP的時候其實是一系列的過程,尤其像支付購買這樣的操作,到底是中間那個環節導致用戶流失,通過行為分析中的路徑分析、頁面來源就可以清楚的了解到,其次像用戶在頁面的停留時長、打開次數也會有統計;
(3)自定義事件和漏斗模型:幫助用戶自主的去統計小到按鈕的點擊行為,完全可以自主控制,還可以將用戶行為串聯起來形成一條自主路徑,觀察用戶的行為;
(4)錯誤管理:幫助開發者管理應用錯誤,找到錯誤根源,同時對于應用數據的突變支持通過微信服務號告警;
(5)專門的游戲分析:針對游戲應用這個龐大的群體,云分析推出專門的游戲分析,可以細致的分析到玩家在關卡、對戰中的行為,充值、購買道具的行為。
騰訊云分析對開發者的作用主要有兩方面:一是開發者可以通過自己的數據波動找到產品優化的方向,比如一款游戲,如果發現某個關卡用戶流失嚴重,那是不是要優化關卡,或者推出游戲攻略、關卡獎勵等活動;二是開發者可以通過數據知道自己運營效果,比如一款應用,在相關媒體網站上發送文章,引來一部分用戶,引流的量是多少,是否和之前的的預期一樣,效果會持續多久,這樣就可以預估活動的頻率和范圍。