Pandas

Pandas – это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на языке программирования Python. На данный момент библиотека Pandas является ключевой в анализе данных (Data Mining).

История

Разработка Pandas началась в 2008 году в компании AQR Capital, которая занимается инвестициями и финансами.

К концу 2009 он стал проектом с открытым исходным кодом (open source), который и по сей день поддерживается сообществом единомышленников со всего мира, которые безвозмездно вкладывают свои силы и время в развитие этой библиотеки.

С 2015 года эта библиотека спонсируется компанией NumFOCUS, которая поддерживает open source проекты.

Архитектура DataFrame – главного объекта Pandas

В основе Pandas лежит DataFrame – структура данных табличного типа. Любое табличное представление данных, например, электронные таблицы или базы данных, можно использовать как DataFrame. Объект DataFrame составлен из объектов Series – одномерных массивов, объединенных под одним названием и типом данных. Series можно рассматривать как столбец таблицы.

Схематичное представление DataFrame и Series в Pandas
Представление DataFrame и Series

Pandas имеет широкий спектр возможностей для анализа данных

Библиотека Pandas используется в различных академических и коммерческих областях, включая искусственный интеллект (Artificial Intelligence), финансы, нейробиологию, экономику, статистику, рекламу, веб-аналитику и многое другое. Рассмотрим основные возможности библиотеки [1]:

  • DataFrame- быстрый и эффективный инструмент для манипулирования данными со встроенной индексацией. Методы, требующие высокой производительности, написаны на C или Cython.
  • Позволяет читать и записывать данные разных форматах: CSV(comma-separeted values), таблицы Excel, базы данных SQL, иерархический формат HDF Всего насчитывается 19 поддерживаемых форматов.
  • Удобный инструмент для работы cотсутствующими данными.
  • Простое управление беспорядочными данными в упорядоченной форме.
  • Гибкое изменение форм: добавление, удаление, присоединение новых или старых данных.
  • Интеллектуальное индексирование, манипулирование и управление столбцами и строками.
  • Мощный инструмент для агрегирования и преобразования данных, в том числе и большого размера (BigData).
  • Быстрое слияние и объединение наборов данных, например, два и более объектов DataFrame.
  • Поддержка иерархического индексирования, то есть возможность объединения столбцов под общей категорией (MultiIndex).
  • Поддержка работы с датами и временем.

Cмотрите также:

Источники

  1. https://pandas.pydata.org/about/index.html