Pandas – это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на языке программирования Python. На данный момент библиотека Pandas является ключевой в анализе данных (Data Mining).
История
Разработка Pandas началась в 2008 году в компании AQR Capital, которая занимается инвестициями и финансами.
К концу 2009 он стал проектом с открытым исходным кодом (open source), который и по сей день поддерживается сообществом единомышленников со всего мира, которые безвозмездно вкладывают свои силы и время в развитие этой библиотеки.
С 2015 года эта библиотека спонсируется компанией NumFOCUS, которая поддерживает open source проекты.
Архитектура DataFrame — главного объекта Pandas
В основе Pandas лежит DataFrame – структура данных табличного типа. Любое табличное представление данных, например, электронные таблицы или базы данных, можно использовать как DataFrame. Объект DataFrame составлен из объектов Series — одномерных массивов, объединенных под одним названием и типом данных. Series можно рассматривать как столбец таблицы.
Pandas имеет широкий спектр возможностей для анализа данных
Библиотека Pandas используется в различных академических и коммерческих областях, включая искусственный интеллект (Artificial Intelligence), финансы, нейробиологию, экономику, статистику, рекламу, веб-аналитику и многое другое. Рассмотрим основные возможности библиотеки [1]:
- DataFrame- быстрый и эффективный инструмент для манипулирования данными со встроенной индексацией. Методы, требующие высокой производительности, написаны на C или Cython.
- Позволяет читать и записывать данные разных форматах: CSV(comma-separeted values), таблицы Excel, базы данных SQL, иерархический формат HDF Всего насчитывается 19 поддерживаемых форматов.
- Удобный инструмент для работы cотсутствующими данными.
- Простое управление беспорядочными данными в упорядоченной форме.
- Гибкое изменение форм: добавление, удаление, присоединение новых или старых данных.
- Интеллектуальное индексирование, манипулирование и управление столбцами и строками.
- Мощный инструмент для агрегирования и преобразования данных, в том числе и большого размера (BigData).
- Быстрое слияние и объединение наборов данных, например, два и более объектов DataFrame.
- Поддержка иерархического индексирования, то есть возможность объединения столбцов под общей категорией (MultiIndex).
- Поддержка работы с датами и временем.
Cмотрите также:
- Абсолютный минимум Pandas
- 5 графиков для Data Science, которые можно построить в Pandas 3 способами
- NumPy vs Pandas: в чем разница между двумя библиотеками Python
Источники