|
摘要: 統(tǒng)計分析是實現(xiàn)地理國情數(shù)據(jù)向地理國情信息轉(zhuǎn)換的重要手段,可以從不同維度反映資源、環(huán)境、生態(tài)、經(jīng)濟等要素的內(nèi)在空間特性及其相互作用。針對大數(shù)據(jù)統(tǒng)計分析面臨的高效管理、高強度計算和深度服務(wù)需求,提出了地理國情大數(shù)據(jù)統(tǒng)計分析的技術(shù)框架,并從大數(shù)據(jù)存儲與融合、統(tǒng)計計算關(guān)鍵技術(shù)、服務(wù)建模與應(yīng)用3個維度探討了地理國情統(tǒng)計分析的核心流程。該研究成果將有助于提升地理國情監(jiān)測和統(tǒng)計分析在自然資源監(jiān)管、生態(tài)保護修復(fù)等領(lǐng)域中的應(yīng)用水平,推動測繪地理信息產(chǎn)業(yè)的轉(zhuǎn)型升級。 第一作者:劉紀(jì)平, 博士, 研究員, 主要從事應(yīng)急地理信息服務(wù)、政務(wù)地理空間大數(shù)據(jù)、網(wǎng)絡(luò)空間數(shù)據(jù)挖掘的理論與方法研究。liujp@casm.ac.cn 大數(shù)據(jù)時代,各類傳感器的日益普及和基礎(chǔ)通信設(shè)施及技術(shù)的高速發(fā)展引發(fā)了眾多行業(yè)的根本性變革,而產(chǎn)生的大數(shù)據(jù)中約80%與空間位置有關(guān)。隨著空天地一體化對地觀測傳感網(wǎng)、地理信息系統(tǒng)(Geographic Information System,GIS)技術(shù)、物聯(lián)網(wǎng)技術(shù)、基于位置的服務(wù)(Location Based Services,LBS)技術(shù)、計算機技術(shù)與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,海量跨領(lǐng)域數(shù)據(jù)呈爆炸性增長趨勢,并逐步實現(xiàn)全球、全天時、全方位的空間數(shù)據(jù)獲取,逐漸成為快速響應(yīng)和預(yù)警各類災(zāi)害、資源安全等重大事件及應(yīng)對全球可持續(xù)發(fā)展等重大問題的基礎(chǔ)。 大數(shù)據(jù)時代的到來使得社會、科學(xué)和經(jīng)濟都發(fā)生了根本性變革。作為國情信息的重要組成部分,地理國情廣泛涉及與地理相關(guān)的自然和人文要素信息,是一個國家的自然、經(jīng)濟和人文狀況在空間的精確反映。地理國情信息已經(jīng)成為制定國家和區(qū)域發(fā)展戰(zhàn)略與規(guī)劃、開展國民經(jīng)濟統(tǒng)計、調(diào)整經(jīng)濟結(jié)構(gòu)布局、應(yīng)對突發(fā)事件的重要數(shù)據(jù)基礎(chǔ)。當(dāng)前,深度開展地理國情監(jiān)測已成為全球共識,在強大的對地觀測數(shù)據(jù)獲取能力和先進的科技力量支撐下,國外發(fā)達國家的地理國情監(jiān)測范圍不再局限于本土,而是逐漸擴大到區(qū)域或全球尺度。如全球森林觀測中心(Forest Global Earth Observatory,F(xiàn)orestGEO)在27個國家建立了66個長期觀測站,用于監(jiān)測、分析和預(yù)測全球環(huán)境變化所引發(fā)的生態(tài)系統(tǒng)變量的持續(xù)性改變;美國Millbrook生態(tài)系統(tǒng)研究所對美國北部、歐洲和北極地區(qū)28個采樣點的85個植物群落進行了重復(fù)采樣監(jiān)測,用于分析全球氣溫變暖對植物群落造成的影響;俄羅斯科學(xué)院和地震研究所的KVERT小組通過衛(wèi)星對含有36座活火山的堪察加和千島群島的火山活動進行了持續(xù)監(jiān)測,用于降低飛機與火山灰云相撞的風(fēng)險;從1990年開始,中國也陸續(xù)開展了一系列的資源和環(huán)境調(diào)查,并深入探索了工業(yè)化所引發(fā)的人居環(huán)境問題,如水質(zhì)惡化、土壤流失、空氣污染、物種減少等問題。 近年來,隨著我國地理國情普查與監(jiān)測工作的深入開展,所獲取的各種數(shù)據(jù)、資料以及處理形成的各類數(shù)據(jù)產(chǎn)品的規(guī)模不斷擴大,從數(shù)據(jù)量、增長速度、準(zhǔn)確度和應(yīng)用價值看,地理國情數(shù)據(jù)已成為天然的大數(shù)據(jù)。地理國情大數(shù)據(jù)使得過去一些因為數(shù)據(jù)短缺而無法開展的分析計算變得切實可行。同時,為支持相應(yīng)的統(tǒng)計分析與計算,必須配備與之相適應(yīng)的高效存儲和強大計算能力,進而對計算結(jié)果進行深度分析和挖掘,以形成相應(yīng)的知識和統(tǒng)計規(guī)律。 此外,為滿足經(jīng)濟社會發(fā)展和生態(tài)文明建設(shè)的需要,提高地理國情信息對政府、企業(yè)和公眾的服務(wù)能力,要求構(gòu)建一套面向地理國情大數(shù)據(jù)的統(tǒng)計分析技術(shù)框架。該框架以大數(shù)據(jù)存儲、多源數(shù)據(jù)深度融合、海量地理大數(shù)據(jù)快速處理等關(guān)鍵技術(shù)為基礎(chǔ),以分析和挖掘地理國情監(jiān)測對象的內(nèi)在空間特性、相互關(guān)系、分布規(guī)律和發(fā)展趨勢為手段,最終以公報、藍(lán)皮書、專報等成果形式向各級政府、有關(guān)部門及社會公眾提供客觀真實的地理國情信息和服務(wù)。 地理國情統(tǒng)計分析不同于簡單的數(shù)理統(tǒng)計,它是以地理國情大數(shù)據(jù)為基礎(chǔ),融合其他專業(yè)部門的統(tǒng)計數(shù)據(jù),采用地理信息科學(xué)、空間經(jīng)濟學(xué)、計算機科學(xué)等多學(xué)科的理論與技術(shù)方法,從不同的維度綜合分析資源、環(huán)境、生態(tài)、經(jīng)濟、人口等要素的內(nèi)在空間特性及其相互作用,揭示它們的分布規(guī)律和發(fā)展趨勢,從而提取有用的國情信息并形成結(jié)論,為科學(xué)決策提供依據(jù)或建議。 地理國情統(tǒng)計分析內(nèi)容 地理國情統(tǒng)計分析內(nèi)容包括基本統(tǒng)計、綜合統(tǒng)計與專題統(tǒng)計3個層次。 基本統(tǒng)計分析。從地理國情大數(shù)據(jù)中提取各類自然、人文等要素的基本情況信息,形成反映資源數(shù)量、時序變化和空間分布特征的基礎(chǔ)性地理信息成果。 綜合統(tǒng)計分析。融合產(chǎn)業(yè)、人口等社會經(jīng)濟專題數(shù)據(jù),建立地理國情統(tǒng)計分析的指標(biāo)和模型,通過計算形成反映我國地表資源分布與利用、生態(tài)格局、區(qū)域經(jīng)濟潛能、基本公共服務(wù)均等化、城鎮(zhèn)發(fā)展等維度的地理國情指標(biāo)指數(shù)。 專題統(tǒng)計分析。圍繞國家和社會所關(guān)注的生態(tài)環(huán)境問題,采用定性和定量分析手段,通過對大數(shù)據(jù)進行深度挖掘與應(yīng)用建模,形成揭示經(jīng)濟、社會發(fā)展與自然資源環(huán)境內(nèi)在聯(lián)系和規(guī)律的專題報告。 地理國情大數(shù)據(jù)統(tǒng)計分析技術(shù)框架 地理國情統(tǒng)計分析是一項數(shù)據(jù)密集、計算密集、知識密集、學(xué)科交叉的復(fù)合型工作。地理國情大數(shù)據(jù)統(tǒng)計分析應(yīng)從數(shù)據(jù)存儲管理、高效計算和深度分析3個層次提供相應(yīng)的關(guān)鍵技術(shù)支持。 圖1所示為地理國情大數(shù)據(jù)統(tǒng)計分析技術(shù)框架。針對海量地理國情數(shù)據(jù)和專題數(shù)據(jù),設(shè)計了集存儲、計算和通信一體化的大數(shù)據(jù)解決方案。以全國地理國情統(tǒng)計分析為例,開發(fā)了可支持空間大數(shù)據(jù)調(diào)度與統(tǒng)計計算的系列關(guān)鍵技術(shù),包括地表精準(zhǔn)建模、近似計算、多時態(tài)數(shù)據(jù)變化分析、多源數(shù)據(jù)綜合分析等。通過服務(wù)建模、數(shù)據(jù)挖掘和應(yīng)用分析,最終可服務(wù)自然資源監(jiān)管、生態(tài)環(huán)境保護修復(fù)等工作。 圖1 地理國情大數(shù)據(jù)統(tǒng)計分析技術(shù)框架 地理國情大數(shù)據(jù)涉及地表覆蓋、地理國情要素、數(shù)字高程模型等基礎(chǔ)數(shù)據(jù)和國家級新區(qū)空間格局變化監(jiān)測、城市地理國情監(jiān)測等專題監(jiān)測數(shù)據(jù),同時還包括人口、國內(nèi)生產(chǎn)總值(gross domestic product,GDP)等社會經(jīng)濟數(shù)據(jù)。其典型特征是數(shù)據(jù)體量大、類型多樣、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,傳統(tǒng)的存儲和管理模式已經(jīng)無法滿足統(tǒng)計分析需求。 地理國情大數(shù)據(jù)平臺構(gòu)建 地理國情監(jiān)測數(shù)據(jù)具有多類型、多時態(tài)特征,在存儲管理上,按照專題—監(jiān)測區(qū)域—數(shù)據(jù)類型—監(jiān)測日期的模式構(gòu)建數(shù)據(jù)管理目錄,按時間構(gòu)建矢量數(shù)據(jù)、影像數(shù)據(jù)及文檔成果的數(shù)據(jù)管理節(jié)點,實現(xiàn)不同時期監(jiān)測數(shù)據(jù)的整體管理。 在服務(wù)器、存儲、網(wǎng)絡(luò)等硬件資源的基礎(chǔ)上通過虛擬化構(gòu)建虛擬服務(wù)資源,搭建起大數(shù)據(jù)基礎(chǔ)設(shè)施平臺?;跀?shù)據(jù)庫訪問接口和空間數(shù)據(jù)引擎,設(shè)計開發(fā)地理國情監(jiān)測大數(shù)據(jù)管理系統(tǒng),提供數(shù)據(jù)管理、查詢、統(tǒng)計計算等服務(wù)。其基本架構(gòu)如圖 2所示。 圖2 地理國情大數(shù)據(jù)平臺架構(gòu) 分布式空間索引策略 在大數(shù)據(jù)條件下,應(yīng)將單純的空間索引從算法層提升到策略層,才能解決空間大數(shù)據(jù)的高效檢索問題。單一年度的全國矢量地表覆蓋與地理國情要素數(shù)據(jù)可達到TB級規(guī)模,幾何對象數(shù)甚至達到十億條以上。為實現(xiàn)數(shù)據(jù)的高效訪問,可按照行政區(qū)劃單元的層級關(guān)系構(gòu)建索引策略。在統(tǒng)計單元體系中,設(shè)計了包括“國、省、市、縣”四級的樹狀索引策略。最上層為根節(jié)點,查詢范圍對應(yīng)了分省界線范圍;最下層為葉節(jié)點,查詢范圍對應(yīng)了實際的地表覆蓋數(shù)據(jù)層或地理國情要素層。在分布式環(huán)境下,葉節(jié)點同時記錄了數(shù)據(jù)所在的物理存儲目錄。省級或其他層級單元可根據(jù)需求建立三級或二級索引策略。 在數(shù)據(jù)入庫時,可按照數(shù)據(jù)的范圍和行政級別導(dǎo)入至對應(yīng)節(jié)點的數(shù)據(jù)庫。入庫完畢后,對各數(shù)據(jù)層構(gòu)建圖斑粒度的空間索引,并掛接至空間索引策略葉節(jié)點。數(shù)據(jù)更新時,應(yīng)同步更新圖斑級空間索引和索引策略??臻g索引策略結(jié)構(gòu)如圖3所示。 圖3 分布式空間索引策略 基于本體的地理國情數(shù)據(jù)集成和融合 地理國情大數(shù)據(jù)是典型的多源異構(gòu)數(shù)據(jù),傳統(tǒng)的集成方法不利于信息共享和互操作,進而嚴(yán)重制約了后續(xù)的計算與分析,基于地理本體的大數(shù)據(jù)集成和融合技術(shù)提供了有效降低甚至解決這種困難的途徑。 本體網(wǎng)絡(luò)描述語言(ontology web language,OWL)提供了數(shù)據(jù)與分析需求的形式化語義描述功能,充分利用本體具有的信息共享優(yōu)勢,可以驅(qū)動相關(guān)信息的自動組織,實現(xiàn)對終端用戶建模。如圖 4所示,采用地理本體的語義模型映射方法,建立點、線、面和復(fù)合要素與語義化地理國情要素的映射關(guān)系,通過形式化描述構(gòu)建面向統(tǒng)計分析的地理本體,進而將不同數(shù)據(jù)進行轉(zhuǎn)換和集成,實現(xiàn)原始存儲格式到類別、位置、時間等屬性的關(guān)聯(lián)。地理國情本體內(nèi)容涵蓋了數(shù)據(jù)對象、任務(wù)關(guān)系及其相關(guān)屬性,具體包括了幾何要素、統(tǒng)計分析指標(biāo)、模型方法、指數(shù)等內(nèi)容。通過地理本體數(shù)據(jù)模型的靈活設(shè)計,可有效簡化統(tǒng)計分析大數(shù)據(jù)集成和融合過程,有助于提升面向政府部門應(yīng)用的統(tǒng)計分析輔助決策效率。 圖4 基于本體的地理國情大數(shù)據(jù)集成和融合 社會經(jīng)濟數(shù)據(jù)的空間化技術(shù) 地理國情統(tǒng)計分析涉及大量的社會經(jīng)濟要素數(shù)據(jù)。為實現(xiàn)地理國情數(shù)據(jù)與社會經(jīng)濟數(shù)據(jù)的整合和一體化空間分析,通過構(gòu)建社會經(jīng)濟數(shù)據(jù)和地理國情要素圖斑的相互關(guān)系,將表格化數(shù)據(jù)轉(zhuǎn)化成空間數(shù)據(jù)進行統(tǒng)一管理。以人口數(shù)據(jù)空間化為例,可實現(xiàn)表達人口信息的空間單元由行政單元向規(guī)則格網(wǎng)單元轉(zhuǎn)換。人口分布與房屋建筑密切相關(guān),通過建立人口與房屋建筑區(qū)屬性信息(類型、面積、層數(shù)、密度等)之間的空間匹配關(guān)系而實現(xiàn)人口精準(zhǔn)分配。 顧及空間臨近性的異步并行調(diào)度方法 從空間數(shù)據(jù)的并行處理角度來看,地學(xué)算法并行化主要基于空間劃分與任務(wù)調(diào)度策略來完成。地理國情統(tǒng)計分析需要處理大體量的矢柵數(shù)據(jù),劃分子任務(wù)均包含了耗時較長的讀寫操作,從而限制了性能提升。 針對上述問題,利用規(guī)則網(wǎng)格將數(shù)據(jù)從空間范圍劃分為數(shù)以百計乃至更多的區(qū)塊,且采取一定的數(shù)據(jù)冗余策略,確保各區(qū)塊有效計算范圍內(nèi)輸入的完整性和獨立性。如圖 5所示,在數(shù)據(jù)劃分基礎(chǔ)上,設(shè)計了包含數(shù)據(jù)讀取(Reader)、寫入(Writer)和計算單元(compute unit,CU)3類模塊的異步并行調(diào)度機制。Reader負(fù)責(zé)連續(xù)從數(shù)據(jù)源讀取數(shù)據(jù),并組織成連續(xù)區(qū)塊流,將其傳遞至CU。經(jīng)CU處理后由Writer輸出至內(nèi)存或文件。整個過程中,計算與數(shù)據(jù)訪問異步重疊,可顯著緩解讀寫造成的性能瓶頸中。 圖5 地理區(qū)塊數(shù)據(jù)異步并行調(diào)度 空間數(shù)據(jù)內(nèi)存計算 內(nèi)存計算是將數(shù)據(jù)存放在物理內(nèi)存中,以此作為數(shù)據(jù)處理加速的手段,多適用于數(shù)據(jù)訪問密集型算法。相比傳統(tǒng)方法,內(nèi)存計算可顯著提升數(shù)據(jù)頻繁訪問效率。 地理國情統(tǒng)計分析是典型的計算密集型操作,大部分分析算法的復(fù)雜度可達到O(n2)甚至O(n3)。在處理圖斑級數(shù)據(jù)時,可在內(nèi)存允許的情況下,將數(shù)據(jù)層一次性加載至內(nèi)存。對于柵格數(shù)據(jù),可根據(jù)空間范圍分配同構(gòu)像元陣列存儲;對于矢量數(shù)據(jù),可按矢量對象的結(jié)構(gòu)和長度順序拷貝至內(nèi)存。圖 6所示為柵格和矢量圖層的內(nèi)存化表達。 圖6 空間數(shù)據(jù)圖層內(nèi)存化表達 顧及地表起伏特征的高精度地表建模 陸表資源和地理過程都以地球表面為載體,但絕大多數(shù)應(yīng)用將地球簡化成標(biāo)準(zhǔn)橢球體而忽略了實際地表起伏。橢球面積和實際表面面積在局部地區(qū)的相對差異甚至達到20%,給資源調(diào)查帶來較大的不確定性。 本文建立了基于不規(guī)則三角網(wǎng)的高精度表面面積模型,形成了具有不同地形特征適應(yīng)性的三維地表建模方法。同時,為應(yīng)對高強度計算作業(yè)需求,設(shè)計并實現(xiàn)了基于多線程的表面面積并行統(tǒng)計方法(見圖 7),以支撐大范圍、高精度地表資源分類估算。 圖7 地表建模與多線程表面面積計算 多時序地表覆蓋轉(zhuǎn)移矩陣計算 轉(zhuǎn)移矩陣可全面分析區(qū)域土地利用變化的數(shù)量結(jié)構(gòu)特征與各用地類型變化的方向,因而廣泛應(yīng)用于土地利用變化和模擬中[24]。地理國情統(tǒng)計分析中,地表覆蓋轉(zhuǎn)移矩陣可定量刻畫研究期初的各地類流失去向和期末的各地類來源與構(gòu)成。 開展大范圍的兩期地表覆蓋數(shù)據(jù)轉(zhuǎn)移矩陣計算,必然要應(yīng)對高強度的計算負(fù)載與數(shù)據(jù)分區(qū)的不均衡性。在多核計算節(jié)點內(nèi),采用并行的進程池進行任務(wù)管理,通過異步調(diào)度機制確??臻e進程及時獲取任務(wù)加載指令,實現(xiàn)了多個任務(wù)的異步并行。如圖 8所示,在進程池支持下,首先對數(shù)據(jù)進行匹配和數(shù)據(jù)裁切,確保兩期數(shù)據(jù)具有相同的空間范圍;然后以并行方式進行數(shù)據(jù)疊加,形成多屬性復(fù)合層,進而在多個進程中完成面積計算;最后經(jīng)匯總形成相應(yīng)的轉(zhuǎn)移矩陣。 圖8 地表覆蓋轉(zhuǎn)移矩陣計算流程 基于矢量金字塔的實時近似統(tǒng)計 為響應(yīng)大范圍地理國情數(shù)據(jù)的快速統(tǒng)計和在線計算請求,在對數(shù)據(jù)進行格網(wǎng)化處理和預(yù)先計算的基礎(chǔ)上,可通過匯總得到不同格網(wǎng)單元的地類分類數(shù)量信息,形成矢量格網(wǎng)金字塔的基態(tài)數(shù)據(jù)層?;鶓B(tài)數(shù)據(jù)格網(wǎng)的寬度可根據(jù)統(tǒng)計精度需求進行設(shè)定?;鶓B(tài)數(shù)據(jù)格網(wǎng)經(jīng)逐級匯總可得到上一級單元的分類統(tǒng)計信息,重復(fù)匯總至單一格網(wǎng)或與最小顯示范圍相適應(yīng)即可。在給定查詢范圍和層級精度要求后,完整格網(wǎng)可直接分類累加,邊緣破碎格網(wǎng)應(yīng)根據(jù)面積占比推算各地類數(shù)值。圖 9為格網(wǎng)金字塔構(gòu)建原理。 圖9 地理國情統(tǒng)計格網(wǎng)金字塔構(gòu)建 地理國情大數(shù)據(jù)服務(wù)建模
地理國情大數(shù)據(jù)統(tǒng)計分析過程是服務(wù)過程的工程計算表現(xiàn),服務(wù)變化頻繁、控制復(fù)雜、多級運行,難以采用傳統(tǒng)機理建模方法進行維護。分布式服務(wù)組合系統(tǒng)(distributed service composition system,DSCS)可將某種功能(任務(wù))的執(zhí)行通過某種分配算法(均勻分配、負(fù)載均衡)分布到多個服務(wù)節(jié)點上,通過多個服務(wù)節(jié)點間的組合協(xié)作來完成某種功能(任務(wù))的系統(tǒng)。對于分布式服務(wù)組合系統(tǒng),每一個節(jié)點都是一個計算單元,從服務(wù)的角色劃分分成兩類,即提供服務(wù)功能的服務(wù)節(jié)點與使用服務(wù)功能的終端節(jié)點。服務(wù)節(jié)點通過相互之間的組合、協(xié)作提供服務(wù)功能,終端節(jié)點以服務(wù)請求的方式向系統(tǒng)申請使用服務(wù)。 整個統(tǒng)計分析服務(wù)系統(tǒng)中,終端節(jié)點(用戶)申請服務(wù)的過程是一個泊松過程,可獨立、隨機發(fā)起對服務(wù)節(jié)點的接入申請。從申請到完成服務(wù)過程的模式流程如圖 10所示。具體流程如下。
圖10 地理國情大數(shù)據(jù)服務(wù)建模 應(yīng)用服務(wù)的具象化表達。統(tǒng)計分析服務(wù)系統(tǒng)對問題進行分解,并檢索知識庫。若已存在流程,則進入知識庫計算環(huán)節(jié);否則,構(gòu)建問題解決流程。 根據(jù)解決流程申請使用服務(wù)功能。串聯(lián)各模型方法服務(wù)節(jié)點,各模型方法間不直接連邊,模型方法節(jié)點間的通信必須通過服務(wù)節(jié)點進行。 模型方法地理尺度確定。地理尺度的變換并不遵循簡單的線性關(guān)系,在滿足服務(wù)精度要求的情況下,合理確定模型方法地理尺度,如可通過劃分子單元、子單元計算、過程數(shù)據(jù)集中等步驟完成服務(wù)數(shù)據(jù)儲備。 服務(wù)熱點推理。通過確定模型方法服務(wù)節(jié)點和尺度及單元,圍繞熱點問題,經(jīng)過學(xué)習(xí)和推理,最終實現(xiàn)數(shù)據(jù)挖掘。如通過經(jīng)濟、人口的重心計算識別人口密度分異線(全國尺度上表現(xiàn)為胡煥庸線),通過高程帶與地表覆蓋疊加提取地類空間分布規(guī)律,通過轉(zhuǎn)移矩陣發(fā)掘城市開發(fā)的增量特征和變化趨勢等。 返回終端節(jié)點服務(wù)。對于符合終端需求的服務(wù)進行標(biāo)準(zhǔn)化,實現(xiàn)流程、尺度及單元的規(guī)范性約束,最后更新至知識庫。
地理國情大數(shù)據(jù)類型復(fù)雜,數(shù)據(jù)異構(gòu),數(shù)據(jù)量大,服務(wù)需求多樣化。為了解決問題,往往進行問題分解,形成單一類型的非組合子任務(wù)。各子任務(wù)可在常規(guī)的統(tǒng)計分析與數(shù)據(jù)挖掘方法基礎(chǔ)上,結(jié)合地理國情數(shù)據(jù)特征進行決策優(yōu)化。 數(shù)據(jù)分類方法。從地理國情大數(shù)據(jù)中找出一組數(shù)據(jù)對象的共同特點, 并按照分類模式將其劃分為不同的類,預(yù)測數(shù)據(jù)對象的離散類別。大數(shù)據(jù)分析中強調(diào)問題分類細(xì)分,采用數(shù)據(jù)挖掘中的分類技術(shù),將問題分成不同的類別。分類方法有決策樹、K-最近鄰法(K-nearest neighbor, KNN)、支持向量機法(support vector machine,SVM)、向量空間模型法(vector space model,VSM)、Bayes法等。大數(shù)據(jù)中的數(shù)據(jù)分類是探索一種更優(yōu)的模式識別效果,如Bayes法就是一種獲得新信息既而更新預(yù)測的過程。大數(shù)據(jù)的分類就是通過量化和及時更新的數(shù)據(jù)不斷修正模型的過程。 回歸分析。用以描述和評估應(yīng)變量與一個或多個自變量之間的關(guān)系;反映的是數(shù)據(jù)屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系。其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。大數(shù)據(jù)中的回歸分析用于發(fā)現(xiàn)大數(shù)據(jù)中不同變量間的因果關(guān)系,屬于有監(jiān)督學(xué)習(xí)的范疇。如通過回歸分析探索房屋建筑、人口、興趣點(point of interest,POI)分布等城市要素與城市空間形態(tài)的關(guān)系。 聚類分析。聚類算法類似于分類,但與分類目的不同,是把n個對象劃分成k個非空、不相交的聚類,屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性較低。如在大數(shù)據(jù)中基于擁堵時間或空間距離的城市交通路況聚類。 關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個階段:高頻項目單元查找和關(guān)聯(lián)規(guī)則建立。如在大數(shù)據(jù)中基于以往地表覆蓋數(shù)據(jù)、人口結(jié)構(gòu)、經(jīng)濟產(chǎn)業(yè)等數(shù)據(jù)預(yù)測城市擴張方向及形態(tài)。 神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)作為一種人工智能技術(shù),可以有效處理非線性、模糊、不完整、不嚴(yán)密的知識或數(shù)據(jù)為特征的問題。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型主要分為3大類:用于分類預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型,如函數(shù)型網(wǎng)絡(luò)、感知機等;用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,如Hopfield離散模型等;用于聚類的自組織映射方法,如自適應(yīng)共振理論(adaptive resonance theory,ART)模型等。 地理國情統(tǒng)計分析服務(wù)典型應(yīng)用
保護“永久基本農(nóng)田”是基本國策?;谟谰没巨r(nóng)田數(shù)據(jù),結(jié)合地理國情地表覆蓋數(shù)據(jù),通過大數(shù)據(jù)統(tǒng)計分析,可以及時發(fā)現(xiàn)公路兩側(cè)一定距離緩沖區(qū)永久基本農(nóng)田范圍內(nèi)人為違建設(shè)施,并對違建設(shè)施的空間位置和長度、面積進行準(zhǔn)確標(biāo)定(見圖 11)。此外,為加強國家級自然保護區(qū)、國家公園自然生態(tài)系統(tǒng)原真性和完整性保護,通過對不同類別地表覆蓋數(shù)據(jù)分析,可以發(fā)現(xiàn)區(qū)域中存在的房屋、道路、構(gòu)筑物、人工堆掘地等用于居住、交通和經(jīng)濟功能的違建現(xiàn)象(見圖 12),提升自然資源保護的力度。
圖11 對永久基本農(nóng)田的非法占用
圖12 自然保護區(qū)監(jiān)測違建
針對生態(tài)區(qū)域內(nèi)生態(tài)要素空間分布及不同時期生態(tài)要素變化情況開展監(jiān)測,建立地理國情分類體系與生態(tài)地表分類體系之間的對應(yīng)關(guān)系,通過地理國情大數(shù)據(jù)統(tǒng)計分析,可以有效促進和提升生態(tài)環(huán)境保護與監(jiān)測活動的實效。例如,圍繞新疆庫魯斯臺草原草地分布格局,利用2008-2015年植被覆蓋變化數(shù)據(jù)進行統(tǒng)計,依據(jù)宜林則林、宜草則草的原則,運用地理國情大數(shù)據(jù)統(tǒng)計分析方法計算草原植被空間覆蓋指數(shù),反映草原植被覆蓋退化狀況(見圖 13)。在此基礎(chǔ)上,結(jié)合生態(tài)補償標(biāo)準(zhǔn),通過清退草地面積核定補償資金,探索和驗證草原生態(tài)補償和政府轉(zhuǎn)移支付機制,可以有效促進草原的生態(tài)環(huán)境保護。此外,通過大數(shù)據(jù)統(tǒng)計分析,還可以有效監(jiān)測區(qū)域生態(tài)環(huán)境的變化情況,特別是生態(tài)改善的區(qū)域。
圖13 草原退耕還林還草
基于土地各構(gòu)成因素及綜合體特征認(rèn)識,根據(jù)建設(shè)用地地形、土壤、植被、水等要素適宜性要求,以及土地利用相關(guān)社會經(jīng)濟條件、適宜性、土地潛力和土地經(jīng)濟等評價分析方法,以土地合理利用為目標(biāo),根據(jù)土地用途對土地的屬性進行質(zhì)量鑒定和數(shù)量統(tǒng)計,從地理國情角度分析土地的適宜性程度、生產(chǎn)潛力、經(jīng)濟效益和對環(huán)境有利或不利的后果,確定土地價值,為土地利用規(guī)劃、土地資源管理等應(yīng)用領(lǐng)域服務(wù)。例如,通過北京市人口與地表資源承載分析(見圖 14),得出各環(huán)內(nèi)均以生活空間為主,其次為生態(tài)空間和生產(chǎn)空間。五至六環(huán)北部生態(tài)空間分布密集,而南部生產(chǎn)空間和生態(tài)生產(chǎn)空間分布集中,為全市國土空間開發(fā)格局優(yōu)化及資源環(huán)境可持續(xù)發(fā)展提供決策依據(jù)。
圖14 土地資源評價
對國家級新區(qū)的建成區(qū)、地表覆蓋、建設(shè)用地、重要基礎(chǔ)設(shè)施建設(shè)、重要生態(tài)用地、重要社會經(jīng)濟區(qū)域單元在面積、分布、數(shù)量、占比等方面的現(xiàn)狀及變化進行監(jiān)測,開展國家級新區(qū)建設(shè)進程和效果分析評價,掌握國家級新區(qū)的規(guī)劃建設(shè)和發(fā)展?fàn)顩r,促進測繪服務(wù)轉(zhuǎn)型,提升服務(wù)政府決策、服務(wù)社會經(jīng)濟發(fā)展的能力。例如,通過對蘭州新區(qū)地理國情現(xiàn)狀、變化情況以及建設(shè)進程開展評價,發(fā)現(xiàn)監(jiān)測現(xiàn)狀和規(guī)劃存在部分不符之處(見圖 15),該成果為國家級新區(qū)監(jiān)測的全面深入開展起到示范和推動作用。
圖 15 蘭州新區(qū)2010—2013年地表覆蓋變化分析 本文介紹了地理國情大數(shù)據(jù)統(tǒng)計分析的技術(shù)框架及關(guān)鍵技術(shù),探討了解決地理國情大數(shù)據(jù)集成管理、高效統(tǒng)計計算、深度挖掘分析與多樣化服務(wù)的核心技術(shù)體系,可為全國與地方開展地理國情大數(shù)據(jù)的統(tǒng)計分析和服務(wù)工作提供關(guān)鍵技術(shù)支撐。 隨著自然資源部改革的進一步深入,基于地理國情大數(shù)據(jù)的統(tǒng)計分析與服務(wù)已成為推動測繪地理信息行業(yè)思想變革、技術(shù)創(chuàng)新和人才培養(yǎng)的重要力量,這將為履行自然資源監(jiān)管、生態(tài)保護修復(fù)等職責(zé)提供重要的信息和技術(shù)支持。
|
|
|