【原】Pandas是什么

碼農(nóng)9527 2021-09-28

展開全文

Pandas是一個開源的第三方Python庫，從Numpy和Matplotlib的基礎(chǔ)上構(gòu)建而來，享有數(shù)據(jù)分析“三劍客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已經(jīng)成為Python數(shù)據(jù)分析的必備高級工具，它的目標是成為強大、靈活、可以支持任何編程語言的數(shù)據(jù)分析工具。

Pandas這個名字來源于面板數(shù)據(jù)（PanelData）與數(shù)據(jù)分析（dataanalysis）這兩個名詞的組合。在經(jīng)濟學(xué)中，PanelData是一個關(guān)于多維數(shù)據(jù)集的術(shù)語。Pandas最初被應(yīng)用于金融量化交易領(lǐng)域，現(xiàn)在它的應(yīng)用領(lǐng)域更加廣泛，涵蓋了農(nóng)業(yè)、工業(yè)、交通等許多行業(yè)。

Pandas最初由WesMcKinney（韋斯·麥金尼）于2008年開發(fā)，并于2009年實現(xiàn)開源。目前，Pandas由PyData團隊進行日常的開發(fā)和維護工作。在2020年12月，PyData團隊公布了最新的Pandas1.20版本。

在Pandas沒有出現(xiàn)之前，Python在數(shù)據(jù)分析任務(wù)中主要承擔著數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理的工作，但是這對數(shù)據(jù)分析的支持十分有限，并不能突出Python簡單、易上手的特點。Pandas的出現(xiàn)使得Python做數(shù)據(jù)分析的能力得到了大幅度提升，它主要實現(xiàn)了數(shù)據(jù)分析的五個重要環(huán)節(jié)：

加載數(shù)據(jù)

整理數(shù)據(jù)

操作數(shù)據(jù)

構(gòu)建數(shù)據(jù)模型

分析數(shù)據(jù)

Pandas主要特點

Pandas主要包括以下幾個特點：

它提供了一個簡單、高效、帶有默認標簽（也可以自定義標簽）的DataFrame對象。

能夠快速得從不同格式的文件中加載數(shù)據(jù)（比如Excel、CSV、SQL文件），然后將其轉(zhuǎn)換為可處理的對象；

能夠按數(shù)據(jù)的行、列標簽進行分組，并對分組后的對象執(zhí)行聚合和轉(zhuǎn)換操作；

能夠很方便地實現(xiàn)數(shù)據(jù)歸一化操作和缺失值處理；

能夠很方便地對DataFrame的數(shù)據(jù)列進行增加、修改或者刪除的操作；

能夠處理不同格式的數(shù)據(jù)集，比如矩陣數(shù)據(jù)、異構(gòu)數(shù)據(jù)表、時間序列等；

提供了多種處理數(shù)據(jù)集的方式，比如構(gòu)建子集、切片、過濾、分組以及重新排序等。

上述知識點將在后續(xù)學(xué)習中為大家一一講解。

Pandas主要優(yōu)勢

與其它語言的數(shù)據(jù)分析包相比，Pandas具有以下優(yōu)勢：

Pandas的DataFrame和Series構(gòu)建了適用于數(shù)據(jù)分析的存儲結(jié)構(gòu)；

Pandas簡潔的API能夠讓你專注于代碼的核心層面；

Pandas實現(xiàn)了與其他庫的集成，比如Scipy、scikit-learn和Matplotlib；

Pandas官方網(wǎng)站（點擊訪問）提供了完善資料支持，及其良好的社區(qū)環(huán)境。

Pandas內(nèi)置數(shù)據(jù)結(jié)構(gòu)

我們知道，構(gòu)建和處理二維、多維數(shù)組是一項繁瑣的任務(wù)。Pandas為解決這一問題，在ndarray數(shù)組（NumPy中的數(shù)組）的基礎(chǔ)上構(gòu)建出了兩種不同的數(shù)據(jù)結(jié)構(gòu)，分別是Series（一維數(shù)據(jù)結(jié)構(gòu)）DataFrame（二維數(shù)據(jù)結(jié)構(gòu)）：

Series是帶標簽的一維數(shù)組，這里的標簽可以理解為索引，但這個索引并不局限于整數(shù)，它也可以是字符類型，比如a、b、c等；

DataFrame是一種表格型數(shù)據(jù)結(jié)構(gòu)，它既有行標簽，又有列標簽。

下面對上述數(shù)據(jù)結(jié)構(gòu)做簡單地的說明：

數(shù)據(jù)結(jié)構(gòu)	維度	說明
Series	1	該結(jié)構(gòu)能夠存儲各種數(shù)據(jù)類型，比如字符數(shù)、整數(shù)、浮點數(shù)、Python 對象等，Series 用 name 和 index 屬性來描述數(shù)據(jù)值。Series 是一維數(shù)據(jù)結(jié)構(gòu)，因此其維數(shù)不可以改變。
DataFrame	2	DataFrame 是一種二維表格型數(shù)據(jù)的結(jié)構(gòu)，既有行索引，也有列索引。行索引是 index，列索引是 columns。在創(chuàng)建該結(jié)構(gòu)時，可以指定相應(yīng)的索引值。