地理空間數(shù)據(jù)工程
GIS 中的數(shù)據(jù)工程為分析準(zhǔn)備空間數(shù)據(jù)。例如,此過程填充缺失值、添加字段、地理豐富和清理值。通常,整個(gè)數(shù)據(jù)科學(xué)工作流程從數(shù)據(jù)工程和必要的ETL 工作流程開始。數(shù)據(jù)工程方面可能是數(shù)據(jù)科學(xué)中最耗時(shí)的方面。但也是分析中最關(guān)鍵的部分之一,因其與輸入的數(shù)據(jù)一樣好。
在本文中,我們將探討地理空間數(shù)據(jù)工程的基本組成部分,并討論如何優(yōu)化空間數(shù)據(jù)以進(jìn)行分析。
數(shù)據(jù)工程中的關(guān)鍵術(shù)語
地理空間數(shù)據(jù)無處不在,是許多數(shù)據(jù)驅(qū)動(dòng)的關(guān)鍵業(yè)務(wù)任務(wù)的核心。從繪制屬性邊界到分析作物產(chǎn)量,地理空間分析可以幫助組織理解他們的數(shù)據(jù)。就如任何類型的數(shù)據(jù)一樣,可以進(jìn)行常規(guī)流程,據(jù)科學(xué)家/分析師能夠?yàn)闃I(yè)務(wù)團(tuán)隊(duì)提供洞察力。以下是數(shù)據(jù)工程過程中通常附帶的一些關(guān)鍵術(shù)語:
- DATA WAREHOUSE:來自各種來源的數(shù)據(jù)庫 *** , 就像一個(gè)數(shù)據(jù)庫,每個(gè)人都可以擁有多個(gè)數(shù)據(jù)倉庫。
- DATA LAKE:非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)庫,將其視為數(shù)據(jù)的傾倒場(chǎng)。
- DATABASE:表、列和行形式的結(jié)構(gòu)化數(shù)據(jù)。
- 數(shù)據(jù)管道:一系列任務(wù),每個(gè)任務(wù)都在一個(gè)數(shù)據(jù)集上運(yùn)行, 將數(shù)據(jù)從一個(gè)系統(tǒng)傳遞到另一個(gè)系統(tǒng),通常用于收集、 存儲(chǔ)和處理數(shù)據(jù)以用于分析目的。
- EXTRACT, TRANSFORM, LOAD (ETL):從一個(gè)系統(tǒng)中提取數(shù)據(jù), 將其轉(zhuǎn)換為另一個(gè)系統(tǒng)可以使用的格式, 并將其加載到最終系統(tǒng)中用于業(yè)務(wù)分析的過程。
ETL——提取、轉(zhuǎn)換、加載
ETL(提取、轉(zhuǎn)換加載)是一系列流程,可讓數(shù)據(jù)為分析和業(yè)務(wù)洞察做好準(zhǔn)備,將數(shù)據(jù)從一個(gè)數(shù)據(jù)庫移動(dòng)到一個(gè)或多個(gè)數(shù)據(jù)庫作為管道項(xiàng)目。可將 ETL 視為接力賽。數(shù)據(jù)在某一時(shí)刻進(jìn)入系統(tǒng),并進(jìn)行轉(zhuǎn)換,后從一個(gè)跑步者傳遞到下一個(gè)跑步者,直到到達(dá)最終目的地。
添加微信好友, 獲取更多信息
復(fù)制微信號(hào)
數(shù)據(jù)工程工具
數(shù)據(jù)工程是從各種來源收集數(shù)據(jù)并創(chuàng)建將數(shù)據(jù)從原始 來源移動(dòng)到數(shù)據(jù)倉庫的數(shù)據(jù)管道的過程。盡管空間分析是許多數(shù)據(jù)驅(qū)動(dòng)過程的核心,但地理空間分析可能具有挑戰(zhàn)性且乏味。盡管增加了復(fù)雜性,但 GIS 中的數(shù)據(jù)工程在過去幾年中一直受到關(guān)注。以下是一些對(duì)地理空間數(shù)據(jù)具有原生支持的關(guān)鍵數(shù)據(jù)工程軟件應(yīng)用程序。
Snowflake
Snowflake 是基于云的數(shù)據(jù)倉庫和數(shù)據(jù)湖,從各種來源收集數(shù)據(jù)。它是一種軟件即服務(wù) (SAS),可實(shí)現(xiàn)可擴(kuò)展的數(shù)據(jù)存儲(chǔ)和處理。同樣,提供了更快速、更易于使用的靈活分析解決方案。它自己的 SQL 查詢引擎是專門為云設(shè)計(jì)的。Snowflake 支持的一些地理空間數(shù)據(jù)類型包括 Geo *** ON 和 PostGIS。
Apache AirFlow
這個(gè)基于 Python 的開源 ETL 工具專為構(gòu)建和準(zhǔn)備數(shù)據(jù)管道而設(shè)計(jì)。每個(gè)進(jìn)程都是一個(gè)用有向無環(huán)圖 (DAG) 表示的任務(wù),該有向無環(huán)圖 (DAG) 將進(jìn)程從一個(gè)連接到另一個(gè)。此外,Apache AirFlow具有一組獨(dú)特的工具,可編寫、調(diào)度、迭代和監(jiān)控?cái)?shù)據(jù)管道。
Feature Manipulation Engine (FME)
SAFE Software 的 FME 的核心是空間 ETL 專家。通過利用 FME Cloud,是一種控制數(shù)據(jù)流的靈活解決方案。但也允許在其云基礎(chǔ)設(shè)施之外工作,例如使用 AWS。通過讀取器、寫入器和轉(zhuǎn)換器構(gòu)建工作臺(tái),可通過地理空間格式的更大互操作性來完善 ETL 過程。
Alteryx
這是數(shù)據(jù)工程工具的另一個(gè)示例,可在其中如 Apache Airflow 一樣將作業(yè)作為 DAG 執(zhí)行。Alteryx專門從事 ETL 處理。這意味著也可以從其他來源提取和豐富數(shù)據(jù),將轉(zhuǎn)換后的數(shù)據(jù)移動(dòng)到 Snowflake 或任何基于云的平臺(tái)。
Elasticsearch
Elasticsearch 是免費(fèi)的開源工具,用于搜索和分析所有類型的數(shù)據(jù),包括文本信息和其他數(shù)據(jù)類型。這種數(shù)據(jù)工程工具也被廣泛用于 GIS 集成,因其將Elastic Maps 應(yīng)用程序與 Kibana 相結(jié)合,允許分析和可視化地理空間數(shù)據(jù)。
Databricks
Databricks Geospatial Lakehouse 是用于大規(guī)模空間數(shù)據(jù)科學(xué)和 協(xié)作的數(shù)據(jù)工程平臺(tái)。Databricks是數(shù)據(jù)工程的主要參與者之一。甚至可以通過 CARTO Spatial Extension for Databricks 連接,以挖掘甚至靜音的潛力來解鎖云中的空間分析。
GIS中的數(shù)據(jù)工程
空間數(shù)據(jù)工程側(cè)重于管理、處理、清理和分析地理空間數(shù)據(jù)。它與空間數(shù)據(jù)科學(xué)密切相關(guān)。但數(shù)據(jù)工程師更關(guān)注數(shù)據(jù)工程過程的實(shí)施,而數(shù)據(jù)科學(xué)家更專注于數(shù)據(jù)的發(fā)現(xiàn)和探索。
GIS中的數(shù)據(jù)工程是從多個(gè)源中提取和編譯數(shù)據(jù),將空間數(shù)據(jù)轉(zhuǎn)換為對(duì)業(yè)務(wù)有用的格式,后將其加載到數(shù)據(jù)倉庫中的過程。這種注重實(shí)踐、注重細(xì)節(jié)的職業(yè)要求數(shù)據(jù)工程師是耐心的問題解決者,喜歡細(xì)致的工作。但是,當(dāng)將地理空間添加到等式中時(shí),這會(huì)增加云中空間分析的復(fù)雜性。
來源:開源地理空間基金會(huì)中文分會(huì)
來源鏈接:https://www.osgeo.cn/post/1ea53
本站聲明:網(wǎng)站內(nèi)容來源于 *** ,如有侵權(quán),請(qǐng)聯(lián)系我們,我們將及時(shí)處理。