Что такое Pandas в Python: история и возможности для Data Science

Pandas – это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на языке программирования Python. На данный момент библиотека Pandas является ключевой в анализе данных (Data Mining).

История

Разработка Pandas началась в 2008 году в компании AQR Capital, которая занимается инвестициями и финансами.

К концу 2009 он стал проектом с открытым исходным кодом (open source), который и по сей день поддерживается сообществом единомышленников со всего мира, которые безвозмездно вкладывают свои силы и время в развитие этой библиотеки.

С 2015 года эта библиотека спонсируется компанией NumFOCUS, которая поддерживает open source проекты.

Архитектура DataFrame — главного объекта Pandas

В основе Pandas лежит DataFrame – структура данных табличного типа. Любое табличное представление данных, например, электронные таблицы или базы данных, можно использовать как DataFrame. Объект DataFrame составлен из объектов Series — одномерных массивов, объединенных под одним названием и типом данных. Series можно рассматривать как столбец таблицы.

Схематичное представление DataFrame и Series в Pandas — Представление DataFrame и Series

Pandas имеет широкий спектр возможностей для анализа данных

Библиотека Pandas используется в различных академических и коммерческих областях, включая искусственный интеллект (Artificial Intelligence), финансы, нейробиологию, экономику, статистику, рекламу, веб-аналитику и многое другое. Рассмотрим основные возможности библиотеки [1]:

DataFrame- быстрый и эффективный инструмент для манипулирования данными со встроенной индексацией. Методы, требующие высокой производительности, написаны на C или Cython.
Позволяет читать и записывать данные разных форматах: CSV(comma-separeted values), таблицы Excel, базы данных SQL, иерархический формат HDF Всего насчитывается 19 поддерживаемых форматов.
Удобный инструмент для работы cотсутствующими данными.
Простое управление беспорядочными данными в упорядоченной форме.
Гибкое изменение форм: добавление, удаление, присоединение новых или старых данных.
Интеллектуальное индексирование, манипулирование и управление столбцами и строками.
Мощный инструмент для агрегирования и преобразования данных, в том числе и большого размера (BigData).
Быстрое слияние и объединение наборов данных, например, два и более объектов DataFrame.
Поддержка иерархического индексирования, то есть возможность объединения столбцов под общей категорией (MultiIndex).
Поддержка работы с датами и временем.

Cмотрите также:

Источники

https://pandas.pydata.org/about/index.html

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas

История

Архитектура DataFrame — главного объекта Pandas

Pandas имеет широкий спектр возможностей для анализа данных

ООО “УЦ Коммерсант”

О компании

Документы

Проекты