Проект “Повышение эффективности первичного скрининга биологически активных соединений с использованием вычислительных моделей”

Сведения о ходе выполнения проекта в рамках реализации федеральной целевой программы “Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы”

СОДЕРЖАНИЕ

Общие сведения по проекту
Ход выполнения проекта
Разработки
Участники проекта
Публикации по проекту

ОБЩИЕ СВЕДЕНИЯ ПО ПРОЕКТУ

Соглашение о предоставлении субсидии с Минобрнауки России: №14.587.21.0049 от 12.02.2018, уникальный идентификатор проекта RFMEFI58718X0049

Тема проекта: Повышение эффективности первичного скрининга биологически активных соединений с использованием вычислительных моделей

Приоритетное направление: Науки о жизни (НЖ)

Критическая технология: Нано-, био-, информационные, когнитивные технологии

Период выполнения: 12.02.2018 – 31.12.2020 гг.

Сроки выполнения этапов проекта:

Этап №1 – 12.02.2018-31.12.2018
Этап №2 – 01.01.2019-31.12.2019
Этап №3 – 01.01.2020-31.12.2020

Плановое финансирование проекта: 42.12 млн. руб.

Бюджетные средства 21.00 млн. руб.,
Внебюджетные средства 21,12 млн. руб.

Исполнитель: федеральное государственное автономное образовательное учреждение высшего образования “Казанский (Приволжский) федеральный университет”

Иностранный партнер: Университет Палацкого в Оломоуце(Univerzita Palack?ho v Olomouci), Чехия

Ключевые слова: биологический скрининг, дизайн лекарств, биологическая активность, фармакофоры, моделирование структура-свойство, дизайн библиотек соединений, разнообразные библиотеки, сфокусированные библиотеки, пары сопоставленных молекул, молекулярная стабильность, профиль биологической активности, киназа MARK4,рецептор СВ1, аденозиновый рецептор, конденсированный граф реакции

***

Сведения о ходе выполнения проекта на этапе №1

В ходе выполнения проекта по Соглашению о предоставлении субсидии №14.587.21.0049 от 12.02.2018 г., с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе №1 в период с 12.02.2018 г. по 31.12.2020 г. выполнялись следующие работы:

получателем субсидии за счет средств субсидии:

1.1 Проведение патентного поиска и поиска по литературе.

1.2 Разработка программного модуля для поиска общего фармакофора на основании структур активных и неактивных молекул.

1.3 Разработка подхода для дизайна библиотек с использованием карт GTM.

1.4 Разработка алгоритма виртуального скринирования библиотек соединений с использованием фармакофорных моделей.

иностранным партнером за счет собственных средств:

1.5 Литературно-патентный поиск, поиск данных в открытой литературе.

1.6 разработка нового подхода для фармакофорного моделирования, основанного на создании сигнатуры фармакофора.

1.7 Разработка модуля для создания разнообразной библиотеки соединений с использованием 3D фармакофорных сигнатур.

При этом были получены следующие результаты:

  1. Был разработан подход для создания 3D сигнатур фармакофоров. На основе него разработан и успешно апробирован в нескольких ретроспективных случаях подход для выявления трехмерных сигнатур фармакофоров при создании фармакофорных моделей с использованием информации об активных/неактивных соединениях для последующего виртуального скрининга. Показано, что точность моделей на внешней тестовой выборке в основном достигала значений 50%-100% при достаточно высокой полноте, достигающей 80%.
  1. Разработан алгоритм для выявления репрезентативной выборки структурно разнообразных соединений на основе использования карт, полученных с использованием метода Генеративного топографического отображения. Было разработано 7 различных карт, которые были использованы для отбора. Разработанный алгоритм помогает выбирать репрезентативную выборку из представленного набора данных. Предложенный алгоритм позволяет добиться увеличения обогащения выборки активными соединениями на 10%-15% при уменьшении объема выборки до 1%-30% от изначального объема, что достаточно высоко в сравнении с имеющимися аналогами.
  1. Разработан подход, который позволяет проводить быстрый скрининг баз данных с использованием разработанного представления молекул в виде фармакофорных сигнатур. Для ускорения процесса скринирования используется трехстадийный алгоритм, включающий скринирование фармакофорных фингерпринтов, изоморфное вложение полных графов фармакофора и генерацию трехмерных фармакофорных хешей. С использованием заранее подготовленной базы данных соединений для скринирования скорость работы составляет до 1 000 000 молекул в час.
  1. Проводился сбор данных из базы ChEMBL для последующего моделирования. Был разработан специальный подход для автоматической аннотации активности. Собрано 2 243 052 данных по биологической активности. Начат сбор данных по константам скоростей реакций бимолекулярного нуклеофильного замещения в водной среде и среде вода-ДМСО для последующего моделирования гидролитической стабильности соединений. Полученная база данных химических реакций насчитывает 550 реакций и является уникальной, не имеющей аналогов в мире. Собранные данные требуется для разработки технологий в рамках проекта в последующем.
  1. Разработан подход для дизайна разнообразной библиотеки соединений с использованием фармакофорных сигнатур. Основная идея подхода заключалась в отборе библиотек соединений, не имеющих аналогичных фармакофоров. Показано, что обогащение выборки активными соединениями может на 70% превышать долю хитов при случайном отборе.

Предложенная технология поиска фармакофоров использует принципиально новый подход к поиску фармакофоров. В отличие от существующих некоммерческих аналогов не требует знания о «биологически активной» конформации молекулы. В отличие от имеющихся коммерческих аналогов не проводится попарного выравнивания и сравнения молекул в обучающей выборке при создании фармакофора, не используются скоринг-функции. Разработанный подход моделирования является универсальным, с открытым исходным кодом, может быть использован в виртуальном скрининге на основе структуры биомишени. Качество работы подхода превышает качество часто используемого виртуального скрининга с использованием поиска по сходству на
фармакофорных фингерпринтах. Таким образом, предложенный подход по ряду параметров превосходит аналогичные работы, определяющие мировой уровень.

Новизна подхода отбора библиотеки разнообразных соединений с использованием карт заключается в принципиально новом подходе к отбору соединений с использованием снижения размерности химического пространства. В отличие от имеющихся подходов, предложенный подход к отбору отличается наглядностью и возможностью использования полученных карт для визуального анализа, построения моделей структура-свойство.

Скорость и качество работы алгоритма скринирования с использованием фармакофорных сигнатур сопоставима или превосходит аналогичные подходы, определяющих мировой уровень. В отличие от коммерческих инструментов не используются функции скоринга или времязатратные процедуры выравнивания фармакофоров. Новизна подхода заключается в использовании принципиально нового типа представления фармакофоров и новых технологий ускорения поиска.

Предложен принципиально новый метод отбора разнообразной библиотеки соединений с использованием фармакофорных сигнатур. Не имеется аналогичных инструментов, которые отбирали бы соединения по имеющимся в них фармакофорам. Качество работы алгоритма сопоставимо с имеющимися аналогами, при этом подход отличается наглядностью, скоростью и простотой интерпретации результатов.

Таким образом, предложены новые вычислительные подходы для отбора библиотек для проведения биологического скрининга.

По качеству полученных результатов предложенные технологии успешно конкурируют с основными мировыми аналогами.

Полученные результаты соответствуют техническим требованиям этапа №1 проекта и подтверждают перспективность продолжения работ по проекту.

Плановые и достигнутые значения показателей результативности реализации проекта на этапе №1 приведены в таблице.

ХОД ВЫПОЛНЕНИЯ ПРОЕКТА

Заявочная документация к проекту:

  1. Пояснительная записка (pdf)
  1. Календарный план-график исполнения обязательств при проведении исследований (выполнении проекта) (pdf)

Отчетная документация:

Этап №1 – 12.02.2018-31.12.2018

  1. Отчет о научной работе
  1. Отчет о патентных исследованиях
  1. Резюме проекта по этапу №1
  1. Основные результаты этапа №1

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 12.02.2018 № 14.587.21.0049 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 1 в период с12.02.2018 по 31.12.2018 выполнялись
следующие работы:

получателем субсидии за счет средств субсидии:

1.1 Проведение патентного поиска и поиска по литературе.

1.2 Разработка программного модуля для поиска общего фармакофора на основании структур активных и неактивных молекул.

1.3 Разработка подхода для дизайна библиотек с использованием карт GTM.

1.4 Разработка алгоритма виртуального скринирования библиотек соединений с использованием фармакофорных моделей.

иностранным партнером за счет собственных средств:

1.5 Литературно-патентный поиск, поиск данных в открытой литературе.

1.6 разработка нового подхода для фармакофорного моделирования, основанного на создании сигнатуры фармакофора.

1.7 Разработка модуля для создания разнообразной библиотеки соединений с использованием 3D фармакофорных сигнатур.

План исследований первого этапа выполнения проекта был выполнен в полном объеме, все запланированные на первый этап (2018 год) задачи были решены в полном объеме.

При этом были получены следующие результаты:

  1. был проведен патентный поиск и поиск по патентной литературе как получателем субсидии (пункт 1.1 Плана-графика исполнения обязательств), так и Иностранным партнером (пункт 1.5 Плана-графика исполнения обязательств);
  2. Иностранным партнером был разработан подход и реализован программный продукт для фармакофорного моделирования, основанного на создании сигнатуры фармакофора (пункт 1.6 Плана-графика исполнения обязательств);
  3. на основании разработанного подхода создания сигнатуры фармакофора получателем субсидии был разработан модуль для поиска общего фармакофора на основании структур активных и неактивных молекул (пункт 1.2 Плана-графика исполнения обязательств);
  4. на основании разработанного подхода создания сигнатуры фармакофора получателем субсидии был разработан алгоритм виртуального скринирования библиотек соединений с использованием фармакофорных моделей (пункт 1.4 Плана-графика исполнения обязательств);
  5. на основании разработанного подхода создания сигнатуры фармакофора Иностранным партнером был разработан модуль для создания разнообразной библиотеки соединений с использованием 3D фармакофорных сигнатур (пункт 1.7 Плана-графика исполнения обязательств);
  6. был разработан подход для дизайна библиотек с использованием карт GTM (пункт 1.3 Плана-графика исполнения обязательств).

Получены следующие результаты, входящие в перечень научных и научно-технических результатов, подлежащих получению при выполнении исследований получателем субсидии, раздел 2.1 Технического задания:

  1. 2.1.1 «комплекс программ и библиотек на языке Python для проведения фармакофорного моделирования на основе структур активных и неактивных молекул, проведения скрининга с использованием полученных фармакофорных моделей, создания разнообразной библиотеки, анализа молекулярно-динамических траекторий и выявления 3D фармакофоров на основании структуры биомишени» – выполнено частично, разработан модуль фармакофорного моделирования на основе структур активных и неактивных молекул, технология проведения скрининга с использованием полученных фармакофорных моделей, и модуль для создания разнообразной библиотеки. Остальные результаты запланированы на второй и третий год выполнения проекта;
  2. 2.1.2 «программный модуль для дизайна библиотек с использованием картографирования химического пространства методом GTM, а также соответствующее веб-приложение» – выполнено;
  3. 2.1.5 «база данных по скоростям реакций нуклеофильного замещения, расщепления связей и гидролиза эфирной связи» – выполнено частично, начат сбор данных, который будет продолжен во второй и третий год исполнения проекта.

Получены следующие результаты, входящие в перечень научных и научно-технических результатов, подлежащих получению при выполнении исследований Иностранным партнером, раздел 2.2 Технического задания:

  1. 2.2.1 «разработка нового подхода для фармакофорного моделирования, основанного на создании сигнатуры фармакофора» – выполнено;
  2. 2.2.2 «программа на языке Python для вычисления сигнатур 3D фармакофоров» – выполнено.

На основании проведенных исследований и полученных результатов можно сделать следующие обобщения и выводы:

  1. разработан и успешно апробирован в нескольких ретроспективных случаях новый подход к трехмерному представлению фармакофоров молекул с использованием фармакофорных сигнатур. Разработанные трехмерные сигнатуры фармакофоров могут быть использованы для создания фармакофорных моделей с использованием информации об активных/неактивных соединениях для последующего виртуального скрининга. В отличие от существующих некоммерческих продуктов в рамках данного подхода не требуется предварительно заданная геометрия активных соединений, используемых в качестве шаблона, или явное выравнивание фармакофоров. Эффективность разработанных трехмерных моделей фармакофоров была сравнимы или выше, чем производительность виртуального скрининга на основе сходства двумерных фармакофорных дескрипторов. Показано, что разработанные трехмерные фармакофоры были способны выявлять важные лиганд-белковые взаимодействия в нативных позах известных лигандов в лиганд-белковых комплексах;
  2. разработан алгоритм для выявления репрезентативной выборки структурно разнообразных соединений на основе использования карт, полученных с использованием метода Генеративного топографического отображения. Идея подхода заключается в выборке данных, максимально равномерно покрывающей карту химического пространства. Разработанный алгоритм помогает выбирать репрезентативную выборку из представленного набора данных. Показано, что с использованием одной карты или консенсуса из нескольких карт алгоритм позволяет сократить объем выборки до 1%-30% от исходного объема, при этом вероятность найти активное соединение в ней повысится на 10%. Показано, что алгоритм чувствителен к типу карты и требуется тщательный выбор карты, достаточно хорошо представляющей химическое пространство. Полученная с использованием данного подхода величина обогащения слабо зависит от размера отбираемой библиотеки и, следовательно, может использоваться для отбора любых выборок разумного размера;
  3. разработан подход, который позволяет проводить скрининг баз данных с использованием разработанного представления молекул в виде фармакофорных сигнатур. Для ускорения процесса скринирования используется трехстадийный алгоритм. На первом этапе молекулярные отпечатки фармакофора используются в качестве фильтра для быстрого определения фармакофоров, которые не подходят под данный запрос. На следующем этапе полный граф фармакофора молекулы-кандидата изоморфно вкладывают в фармакофоры молекул, прошедших первый фильтр. На последнем этапе сравниваются трехмерные фармакофорные хеши запрашиваемой модели фармакофоров и соответствующих подграфов потенциальных фармакофоров, чтобы определить, имеют ли они идентичную топологию и стерео-конфигурацию. С использованием подготовленной базы данных соединений для скринирования время работы зависит от числа молекул, проходящих фильтр, и составляет от 0.6 до 11 секунд для 1000 конформеров. Это достаточно хорошая скорость, позволяющая использовать алгоритм в последующих приложениях;
  4. проведен сбор данных из различных баз для их последующего моделирования. Из базы данных ChEMBL извлекли результаты для множества различных типов биологических испытаний. Чтобы подготовить данные для последующего моделирования, создан подход для чистки данных, который на основе информации, приведенной в базе данных выявляет тип активности и осуществляет классификацию объектов на активные и неактивные. Собрана информация для 411 биологических мишеней 6 типов. Общее число данных по биологической активности соединений составило 2 243 052. Проведен сбор данных по скоростям реакций бимолекулярного нуклеофильного замещения в водной среде и среде вода-ДМСО, используемой для проведения биологического скрининга. Полученная база данных химических реакций насчитывает 550 реакций;
  5. разработан подход для создания разнообразной библиотеки химических соединений с использованием фармакофорных сигнатур, который был реализован в виде программного модуля. Данный подход выявлял набор из минимального числа соединений, покрывающих максимально широкое фармакофорное пространство.

Работы, запланированные на первый этап выполнения проекта (2018 год) выполнены полностью, в соответствии с п. 1 Плана-графика исполнения обязательств при проведении исследований, Приложение 2 к Соглашению о предоставлении субсидии.

Официальный сайт Получателя субсидии с информацией о ходе выполнения проекта: https://cimm.site/screening2018 .

Разработанные в рамках проекта инструменты могут использоваться на этапе проведения первичного моделирования при создании библиотек химических соединений для биологического скрининга при наличии информации об активных и неактивных соединениях (подход для выявления фармакофоров, инструмент вычислительного скрининга), при отсутствии информации о биологической мишени и активных соединениях (подход для выбора разнообразной библиотеки). Этот этап является критически важным при разработке новых лекарственных препаратов. Таким образом, можно ожидать, что разработанные подходы позволят существенно повысить качество и эффективность проведения скрининга соединений. Кроме того, разработанные инструменты и собранные данные можно использовать для рационального дизайна лекарств, а именно как инструменты виртуального скрининга на основе структуры лигандов. Сочетание разработанных подходов с имеющимися может позволить улучшить качество предсказаний и расширить область применения. Созданные инструменты доступны широкому кругу исследователей и являются бесплатными альтернативами дорогостоящим коммерческим продуктам, используемым при рационально дизайне лекарственных препаратов.

Сравнение результатов анализа литературы и патентного поиска с полученными результатами показывает, что разработанные продукты являются конкурентоспособными и не уступающими лучшим достижениям в данной области. Так, разработанная технология поиска фармакофоров в отличие от существующих некоммерческих аналогов не требует знания о «биологически активной» конформации молекулы. В отличие от имеющихся коммерческих аналогов не проводится попарного выравнивания и сравнения молекул в обучающей выборке при создании фармакофора. Это позволяет потенциально обнаружить лучший возможный фармакофор в выборке, то есть наиболее часто встречающийся в активных и редко встречающийся в неактивных, если объем выборки не слишком велик. Кроме того, разработанный подход моделирования является универсальным, и может быть использован в виртуальном скрининге на основе структуры биомишени. Это недоступно для существующих коммерческих инструментов. Предложенный подход является открытым, с открытым исходным кодом, может быть использован для дальнейшей валидации и применения широкой научной общественностью для решения собственных задач. Разработанный инструмент для поиска разнообразной библиотеки с использованием карт GTM позволяет улучшить выбор соединений по сравнению со случайным подходом даже в отсутствие информации о биомишени и активных лигандах. При этом, в отличие от существующих подходов, использованием карт дает ему интуитивную ясность, возможность интерпретации или ручного анализа при необходимости. Разработанный инструмент скрининга по заданному фармакофору достаточно быстр, уступает существующему подходу Pharmer, сопоставим по скорости работы с другими инструментами. Однако наши фармакофорные модели могут быть преобразованы в формат, используемый Pharmer, за счет чего можно использовать преимущества обеих технологий. Кроме того, Pharmer специально создавался для сверхскоростного виртуального скринирования библиотек: проводилась специальная работа по оптимизации кода, для ускорения использовались компилируемые языки программирования и низкоуровневое программирование – что не было нашей задачей на данном этапе. Мы уверены, что при некоторой оптимизации программной реализации наших инструментов можно добиться существенного ускорения скрининга.

Таким образом, в рамках данного этапа выполнения проекта был разработан ключевой алгоритм генерации фармакофоров и скрининга с их использованием, что необходимо для решения остальных задач по проекту. Были разработаны технологии отбора соединений с использованием виртуального скрининга, основанного на структурах лигандов с использованием данного фармакофора, а также технология отбора разнообразных библиотек. Иностранным партнером был разработан способ создания разнообразной библиотеки с помощью фармакофорного подхода. В этой связи задачу 1 проекта «разработка алгоритмов для выбора разнообразных и сфокусированных библиотек химических соединений с использованием подхода генерации сигнатуры трехмерного фармакофора, а также с использованием картографирования с использованием метода Генеративного топографического отображения», приведенной во введении, можно считать решенной в полном объеме. Сбор данных для моделирования, завершенный на данном этапе проекта, а также разработка инструмента скрининга библиотек соединений, требуется для решения задачи 2 «разработки алгоритмов для генерации сфокусированной библиотеки соединений с использованием предсказания количественных изменений активности при замещении одних фрагментов на другие» и задачи 3 «разработки алгоритмов для отбора соединений на основе анализа профиля биологической активности соединений и анализа их стабильности в растворителях, используемых для высокопроизводительного скрининга», предпосылки для решения которых были созданы на данном этапе выполнения проекта.

РАЗРАБОТКИ

  • pmapper  – базовый модуль для создания сигнатур трехмерных фармакофоров
  • psearch  – модуль для автоматической генерации трехмерных моделей фармакофоров на основе предоставленного набора соединений с измеренными значениями активности и последующего виртуального скрининга с использованием полученных моделей
  • GTM_Diverse  – модуль для дизайна разнообразных библиотек с использованием карт GTM
  • rank  – скрипт ранжирования

PMAPPER

Модуль для создания хешированных сигнатур трехмерных фармакофоров

Последняя версия модуля Pmapper (Python) доступна по ссылке: https://github.com/DrrDom/pmapper

Pmapper – это модуль, написанный на языке программирования Python, для создания сигнатур трехмерных фармакофоров и молекулярных отпечатков (фингерпринтов). Сигнатуры уникально кодируют трехмерные фармакофоры с помощью хешей, подходящих для быстрой идентификации идентичных фармакофоров.

Зависимости

  • rdkit >= 2017.09
    • networkx >= 1.11

Примеры

Загрузка модулей

from rdkit import Chem
from rdkit.Chem import AllChem, ChemicalFeatures
from pharmacophore import Pharmacophore as P, read_smarts_feature_file, load_multi_conf_mol
from pprint import pprint

Create pharmacophore from a single conformer using feature definition from SMARTS file

# load a molecule from SMILES and generate 3D coordinates
mol = Chem.MolFromSmiles('C1CC(=O)NC(=O)C1N2C(=O)C3=CC=CC=C3C2=O')  # talidomide
mol = Chem.AddHs(mol)
AllChem.EmbedMolecule(mol, randomSeed=42)

# load pharmacophore feature definitions from SMARTS file
smarts = read_smarts_feature_file('smarts_features.txt')

# create pharmacophore
p = P()
p.load_from_smarts(mol, smarts)

Get 3D pharmacophore signature

# get 3D pharmacophore signature
sig = p.get_signature_md5()
print(sig)

Output:

f2e16f52f6f6ca6e97fc5844bfd35d36

Get 3D pharmacophore signature with non-zero tolerance

sig = p.get_signature_md5(tol=5)
print(sig)

Output:

fb535302db2e5d624aa979b6e8dfbdf2

Create pharmacophore from a single conformer using RDKit feature factory

# load pharmacophore using RDKit factory and get 3D pharmacophore signature
factory = ChemicalFeatures.BuildFeatureFactory('smarts_features.fdef')
p.load_from_feature_factory(mol, factory)
sig = p.get_signature_md5()
print(sig)

Output:

f2e16f52f6f6ca6e97fc5844bfd35d36

Create pharmacophores for a multiple conformer compound

# create multiple conformer molecule
AllChem.EmbedMultipleConfs(mol, numConfs=10, randomSeed=1024)
ps = load_multi_conf_mol(mol, smarts_features=smarts)
sig = [p.get_signature_md5() for p in ps]
pprint(sorted(sig))  # identical signatures occur

Output:

['13d168458ab1f251157f2422efcce312',
 '13d168458ab1f251157f2422efcce312',
 '182a4cfa756fe8b7f736a7f7ac0e8e0a',
 '182a4cfa756fe8b7f736a7f7ac0e8e0a',
 '4234e9d249874a5009f1e312dd885d80',
 'ab273dd083c4f2e3424ba917b121b846',
 'b6ec58553d2984bd398b4520bd1545cc',
 'bfc43365b2657d08b6bb888e4d8ec71b',
 'f5ca8e406dae31182e2b06fde7452b75',
 'fc4a85e818fc0b3f034a7af42fa5ca69']

Generate 3D pharmacophore fingerprint

# generate 3D pharmacophore fingerprint which takes into account stereoconfiguration
b = p.get_fp(min_features=4, max_features=4)   # set of activated bits
print(b)

Output (a set of activated bit numbers):

{1922, 1795, 779, 1040, 528, 920, 154, 1437, 287, 1313, 1447, 1961, 941, 690, 1203, 65, 1346, 709, 1486, 1366, 2006, 1750, 1016, 346, 603, 1116, 354, 995, 228, 2024, 1900, 1524, 888, 2043}

Change settings:

b = p.get_fp(min_features=4, max_features=4, nbits=1024, activate_bits=2)
print(b)

Output (a set of activated bit numbers):

{897, 514, 259, 389, 520, 264, 143, 16, 529, 656, 787, 660, 24, 285, 157, 32, 673, 550, 683, 173, 301, 558, 45, 945, 177, 692, 950, 443, 444, 61, 960, 961, 448, 321, 709, 197, 587, 460, 77, 718, 720, 80, 339, 596, 723, 470, 980, 345, 601, 476, 354, 614, 743, 1003, 875, 494, 367, 497, 114, 1012, 244, 630, 377, 762, 507, 508, 1021}

Save/load pharmacophore

p.save_to_pma('filename.pma')
# Output is a text file having json format.
p = P()
p.load_from_pma('filename.pma')

Support LigandScout pml-files

LigandScout models saved as pml-files can be read using p.load_ls_model. Also, a pharmacophore can be stored in this format in order to export to LigandScout (p.save_ls_model).

Speed tests

Generation of pharmacophore signatures (hashes) is a CPU-bound task. The computation speed depends on the number of features in pharmacophores.
Tests were run on 500 compounds (a random subset from Drugbank). Up to 50 conformers were generated for each compound. Up to 100 pharmacophores having a particular number of features were chosen randomly from the whole number of 25000 pharmacophores to generate pharmacophore signatures.

Laptop configuration:

  • Intel(R) Core(TM) i7-5500U CPU @ 2.40GHz
  • 12 GB RAM
  • the calculation was run in 1 thread (the module is thread-safe and calculations can be parallelized)

pharmacophore generation: 19.21 s
total number of pharmacophores: 25000
pharmacophore hash generation:
50 pharmacophores having 2 features: 0.00 s; time per pharmacophore: 0.00000 s
100 pharmacophores having 3 features: 0.01 s; time per pharmacophore: 0.00010 s
100 pharmacophores having 4 features: 0.01 s; time per pharmacophore: 0.00010 s
100 pharmacophores having 5 features: 0.04 s; time per pharmacophore: 0.00040 s
100 pharmacophores having 6 features: 0.12 s; time per pharmacophore: 0.00120 s
100 pharmacophores having 7 features: 0.24 s; time per pharmacophore: 0.00240 s
100 pharmacophores having 8 features: 0.51 s; time per pharmacophore: 0.00510 s
100 pharmacophores having 9 features: 0.94 s; time per pharmacophore: 0.00940 s
100 pharmacophores having 10 features: 1.86 s; time per pharmacophore: 0.01860 s
100 pharmacophores having 11 features: 3.02 s; time per pharmacophore: 0.03020 s
100 pharmacophores having 12 features: 4.17 s; time per pharmacophore: 0.04170 s
100 pharmacophores having 13 features: 7.04 s; time per pharmacophore: 0.07040 s
100 pharmacophores having 14 features: 9.29 s; time per pharmacophore: 0.09290 s
100 pharmacophores having 15 features: 12.94 s; time per pharmacophore: 0.12940 s
100 pharmacophores having 16 features: 17.79 s; time per pharmacophore: 0.17790 s
100 pharmacophores having 17 features: 23.58 s; time per pharmacophore: 0.23580 s
100 pharmacophores having 18 features: 33.83 s; time per pharmacophore: 0.33830 s
100 pharmacophores having 19 features: 40.43 s; time per pharmacophore: 0.40430 s
100 pharmacophores having 20 features: 58.30 s; time per pharmacophore: 0.58300 s

Citation

Ligand-Based Pharmacophore Modeling Using Novel 3D Pharmacophore Signatures
Alina Kutlushina, Aigul Khakimova, Timur Madzhidov, Pavel Polishchuk
Molecules 2018, 23(12), 3094
https://doi.org/10.3390/molecules23123094

PSEARCH

Модуль для автоматической генерации трехмерных моделей фармакофоров и последующего виртуального скрининга

Последняя версия модуля psearch (Python) доступна по ссылке: https://github.com/meddwl/psearch

Подготовка данных

В данном контексте под подготовкой данных подразумевается разделение набора данных по активности, генерация стереоизомеров и конформеров для каждой молекулы и генерация базы данных с фармакофорным представлением соединений. Фармакофорное представление соединения – это полный граф, вершинами которого являются все возможные фармакофорные центры соединения, а ребрами – расстояния между ними.

Запускает процесс подготовки данных модуль prepare_dataset.py . На вход он принимает файл формата .smi (содержащий SMILES
Пример:

prepare_dataset.py -i test/input.smi --label -n 100 -e 100 -r 0.5 -c 4

Фармакофорное моделирование и виртуальный скрининг

  1. Генерация фармакофоров осуществляется в 2 этапа:

(а) сначала генерируются все возможные квадруплеты,
(б) после создаются наиболее сложные фармакофорные модели, количество и качество которых регулируются статистикой.

(а) Для генерации квадруплетов используется модуль create_subpharm.py .

Параметры:

-d/--input_db

, путь к базе данных, в которой хранится информация о всех молекулах (тренировочного и тестового наборов), обязательный параметр.

-ts/--file_trainset

, путь к файлу со списком молекул тренировочного набора, обязательный параметр.

-tol/--tolerance

, параметр, который используется для генерации знака стереоконфигурации соединения, по умолчанию этот параметр равен 0.

-l/--lower

, число фармакофорных центров, с которым будут сгенерированы фармакофорные модели, по умолчанию этот параметр равен 4.

Пример:

psearch/scripts/create_subpharm.py -d test/compounds/active.db -ts test/trainset/active_tr1.txt -tol 0 -l 4

(б) Генерация фармакофорных моделей. На этом этапе генерируется статистика, с помощью которой оценивается качество полученных моделей, и лучшие фармакофорные модели сохраняются в папку models с расширением .pma.

Эту функцию выполняет модуль gen_subph.py .

Параметры:

-a/--in_subph_active

, путь к файлу с активными квадруплетами, полученные на предыдущем шаге.

-i/--in_subph_inactive

, путь к файлу с неактивными квадруплетами, полученные на предыдущем шаге.

-adb/--in_active_database

, путь к базе данных с активными соединениями.

-idb/--in_inactive_database

, путь к базе данных с неактивными соединениями.

-ats/--in_active_trainset

, путь к файлу со списком активных молекул тренировочного набора.

-l/--lower

, число фармакофорных центров, которые имеют фармакофорные модели на входе.

Пример:

psearch/scripts/gen_subph.py -a test/trainset/ph_active_tr1.txt -i test/trainset/ph_inactive_tr1.txt -adb test/compounds/active.db -idb test/compounds/inactive.db -ats test/trainset/active_tr1.txt -l 4
  1. Виртуальный скрининг с использованием полученных фармакофорных моделей осуществляется модулем screen_db.py .

Параметры:

-d/--database

, путь к базе данных.

-q/--query

, путь к фармакофорной модели (.pma файл).

-o/--output

, путь к файлу, куда бдут сохранены результаты виртуального скрининга.

Пример:

psearch/scripts/screen_db.py -d test/compounds/active.db -q models/model1.pma -o screen/screen_active_model1.txt

GTM_DIVERSE

Последняя версия модуля GTM subset selection (Python) доступна для скачивания по ссылке: download

GTM subset selection – это модуль, написанный на языке программирования Python, для выборки минимального набора данных с равномерным покрытием карты GTM. Данный подход позволяет отобрать наиболее разнообразные молекулы в выборку. Для работы алгоритма нужны проекции молекул на карту GTM (file.svm or file.rsvm) и специально форматированный файл с биологическими активностями(y.txt).

Зависимости

  • CIMtools >= 3.0
    • CGRtools >=3.0
    • jupyter last version
    • python 3.7

УЧАСТНИКИ ПРОЕКТА

  1. Антипин Игорь Сергеевич, ведущий научный сотрудник, д.х.н.
  2. Афонина Валентина Александровна, младший научный сотрудник, без ученой степени
  3. Баскин Игорь Иосифович, ведущий научный сотрудник, д. ф.-м. н.
  4. Батыршин Динар Салихович, инженер, без ученой степени
  5. Гимадиев Тимур Рустемович, младший научный сотрудник, без ученой степени
  6. Занков Дмитрий Владимирович, лаборант, без ученой степени
  7. Кутлушина Алина Ураловна, лаборант, без ученой степени
  8. Маджидов Тимур Исмаилович, старший научный сотрудник, к.х.н.
  9. Мухаметгалеев Равиль Наилевич, лаборант, без ученой степени
  10. Назмиев Ильдар Анасович, ведущий инженер, без ученой степени
  11. Неклюдов Сергей Александрович, старший научный сотрудник , к.х.н.
  12. Рахимбекова Асима, младший научный сотрудник, без ученой степени
  13. Фатыхова Аделия Альбертовна, инженер, без ученой степени

ПУБЛИКАЦИИ ПО ПРОЕКТУ

2018

  1. Kutlushina, A. Ligand-Based Pharmacophore Modeling Using Novel 3D Pharmacophore Signatures / A. Khakimova, T. Madzhidov, P. Polishchuk // Molecules](https://www.mdpi.com/journal/molecules). – 2018. – V. 23, Iss. 12. – Art.№ 3094. – doi: 10.3390/molecules23123094. – Q1 (Analytical Chemistry, Chemistry (miscellaneous), Pharmaceutical Science)
Share
Send
Pin
 137   2 mon