Автор: Тиаго Антао
Издательство: ДМК Пресс
Год: 2023
Страниц: 345
Язык: русский
Формат: pdf
Размер: 19.9 MB
Биоинформатика — активная область исследований, в которой используется ряд простых и сложных вычислений для извлечения ценной информации из биологических данных. Из книги вы узнаете, как управлять этими задачами с помощью языка Python. Вы рассмотрите ключевые методы секвенирования нового поколения, анализа отдельных клеток, геномики, метагеномики, а также узнаете, как применяются алгоритмы машинного обучения в биоинформатике.
Книга предназначена для аналитиков в области биоинформатики, специалистов по данным, вычислительных биологов, исследователей и разработчиков Python. Для изучения материала желателен опыт работы на Python и базовые знания в области биологии.
Мы начнем с установки основного программного обеспечения, необходимого для большей части этой книги. Оно включает в себя дистрибутив Python, некоторые фундаментальные библиотеки Python и внешнее программное обеспечение для биоинформатики. Мы также рассмотрим мир за пределами Python. В биоинформатике и больших данных важную роль играет R; поэтому вы узнаете, как взаимодействовать с ним через rpy2, который представляет собой мост от Python к R. Кроме того, мы изучим преимущества, которые может дать нам фреймворк IPython (через Jupyter Lab) для эффективного взаимодействия с R. Учитывая, что управление исходным кодом с помощью Git и GitHub широко распространено, мы позаботимся о том, чтобы наш сетап хорошо работал с ними.
Одной из самых сильных сторон Python является обилие высококачественных научных библиотек и библиотек для обработки данных. В основе всех них лежит NumPy, который обеспечивает эффективную поддержку массивов и матриц. В дополнениях NumPy мы можем найти почти все научные библиотеки. Например, в нашей сфере есть Biopython. Но в нашей области можно использовать и другие общие библиотеки анализа данных. Так, Pandas является стандартом де-факто для обработки табличных данных. Совсем недавно библиотека Apache Arrow дала эффективную реализацию некоторых функций Pandas, а также совместимость языков. Наконец, Matplotlib является наиболее распространенной библиотекой для построения диаграмм в пространстве Python и подходит для научных вычислений. Хотя это общие библиотеки с широким применением, они имеют фундаментальное значение для обработки данных в биоинформатике, поэтому мы и будем их изучать.
Машинное обучение используется в самых разных отраслях науки, и вычислительная биология не является исключением. В этой области машинное обучение имеет бесчисленное множество приложений, скорее всего, самым старым и самым известным является использование анализа основных компонентов (Principal Components Analysis, PCA) для изучения структуры популяции с использованием геномики. Scikit-learn – один из фундаментальных инструментов библиотеки для машинного обучения Python, и данный рецепт является введением в эту библиотеку. PCA – это форма машинного обучения без учителя – мы не предоставляем информацию о классе образца.
Скачать Биоинформатика с Python. Книга рецептов