Ваши скрипты на Python при написании конвейеров данных (data pipeline) должны иметь свойство идемпотентности (idempotent). Это значит, что сколько бы вы раз не запускали скрипт...
Эффективное хранение строк в Pandas 1.3
Библиотека Pandas незаменима для подготовки данных на Python. При загрузке и хранение строк в Pandas используется много памяти. В таком случае можно воспользоваться категориальным типом...
Разреженные матрицы в Python с помощью Scipy
В предыдущей статье мы говорили о том, как можно представлять разреженные матрицы. Сегодня рассмотрим их создание с примерами кода на Python с помощью библиотеки Scipy....
Введение в разреженные матрицы (sparse matrix)
В одной из статей по Apache Spark я говорил о разреженных (sparse) матрицах, но не вдавался в подробности. Многих сбивают с толку эти разреженные матрицы,...
4 функции для изменения форм таблиц в Pandas
При работе с таблицами Pandas порой приходится их видоизменять, в частности, когда таблица многоуровневая. В этой статье мы расскажем вам об основных функциях Pandas для...
Как сериализовать и десериализовать JSON в Python
JSON является одним из самых распространённых форматов хранения данных. Сегодня поговорим о работе с JSON в Python. Читайте далее, как соотносятся словари и JSON, сериализация...