В прошлой статье мы говорили о среде IPython. Сегодня мы поговорим о том, как Python-программисты использовали интерактивные ipynb-блокноты в своих репозиториях GitHub в 2020. Читайте в этой статье: статистика и тренды Github по использованию Jupyter Notebook, применяемые библиотеки Machine Learning, NLP и визуализации данных, а также что ищут в YouTube и Google
1. Jupyter Notebook в репозиториях Github
Компания Deepnote провела исследование о применении ipynb-блокнотов в репозиториях на GitHub. В основу легли данные Datalore 10M, собранная информация с GitHub API, а также поисковые тренды Google и YouTube.
Вот что показывает статистика использования Jupyter Notebook в репозиториях Github на 2020 год:
- Количество созданных репозиториев, содержащих Jupyter Notebooks: 10,176
- Количество коммитов: 131,753
- Количество issues: 51,887
- Количество обсуждений: 101
Самые популярные репозитории
Репозиторий GitHub, получивший в 2020 году наибольшее количество звезд, — Fastbook от Fast AI. У него 11k звезд, 11 контрибьюторов, 3.4k форков. Репозиторий посвящен введению в глубокое обучение (Deep Learning) с помощью библиотек Pytorch и FastAI.
Интересно заметить, что второй репозиторий от Fast AI под названием FastPages — платформа для ведения блогов с поддержкой Jupyter Notebook, документов Word и Markdown — занял второе место по количеству набранных звезд в прошлом году (2k звезд, 91 контрибьюторов, 409 форков).
Самым любимым репозиторием за все время с 27.3k звездами является Python Data Science Handbook, созданный в 2017 году. Это репозиторий содержит книгу в виде Jupyter Notebook с рецептами по решению задач Data Science на Python.
Наиболее используемые версии Python
Jupyter блокноты в основном используются Python-программистами. Так, Deepnote выяснили, что Python 3.6 — наиболее используемая версия Python с более чем 55% пользователей, за ней следует Python 3.7 с 36,5%. Python 3.5 и 2.7 имеют только около 0,5% пользователей.
Лицензии
Среди самых используемых лицензий MIT License занимает лидирующее место, а за ней следует Apache 2.0.
2. Библиотеки Python в 2020
Самыми популярными библиотеками в GitHub являются Matplotlib, NumPy и Pandas. Эти библиотеки всегда стоят на вооружении практически у любого Data Scientist’a.
Библиотеки визуализации данных
Matplotlib — самая популярная библиотека для построения графиков. Имеет огромный отрыв с Seaborn и Plotly.
Библиотеки машинного обучения
Среди библиотек машинного обучения Tensorflow занимает первое место: 40,0% пользователей импортировали её в своих блокнотах, за ними следуют Keras с 34,1%.
Библиотеки обработки естественного языка (NLP)
Что касается обработки естественного языка, то NLTK — явный номер 1 с 63,0% импортами. Вторую строчку занял Gensim
Библиотеки геопространственного анализа
Для геопространственного анализа самой популярной библиотекой была Folium, за ней следовали GeoPandas и Shapely.
Другие библиотеки
Вот еще других тематических библиотек, набирающих популярность в Jupyter Notebook:
- Сжатие данных: zipfile
- Химия: pymatgen
- Обработка медицинских изображений: nibabel
- Астрономия: astropy
3. Блокноты в поисковиках Google и YouTube
DeepNote также изучили, что люди искали связанное с ipynb-блокнотами в 2020 году. 10 самых популярных поисковых запросов в Google касаются Jupyter Notebook, Python и работы с файлами .ipynb.
Оценка поисковых запросов считалась относительно. Значение 100 присвоено наиболее часто запрашиваемому ключевому слову, значение 50 — слову, которое искалось в два раза реже, и т.д.
Запросы, связанные с блокнотами, на YouTube очень похожи на запросы в Google: пользователи интересовались Jupyter, Python, установкой и настройкой Anaconda.
Также смотрите учебный видеоролик о возможностях Jupyter Notebook:
- PNLP: NLP – обработка естественного языка с Python
- FUNP: Основы языка Python для анализа данных и решения задач машинного обучения
О том как работать с Jupyter Notebook для решения задач Data Science на Python, вы узнаете на наших курсах в лицензированном учебном центре обучения и повышения квалификации IT-специалистов в Москве.