ケモインフォマティクス(Chemoinformatics)とは、主に化学に関連するデータをコンピュータを用いて解析し、様々な課題を解くために用いる方法論のことです。ケモインフォマティクスという言葉は1990年代終わりから2000年代はじめに定義され、現在では製薬業界や薬学系のアカデミアにおいて、薬剤の効果と化合物特性の関連性を解析したり、大量の化合物情報の可視化、化合物の類似性に基づいたクラスタリングなど、多岐にわたるプロセスで利用されています。
近年、ディープラーニング(Deep Learning)の創薬応用が模索されていますが、活性や物性を予測するQSAR(構造活性相関)だけではなく、新規デザイン提案や合成経路提案といった従来のケモインフォマティクスではあまり扱わなかった領域への応用研究も盛んに行われています。
そもそもどのような化合物を作るべきか?、またそれをどのように合成するか?を考えるプロセスは背景知識と想像力が求められる領域であり、従来は人以外が担うのは難しい領域であると認識されていましたが、このような領域に対してもAIと呼ばれるものの進出がここ数年(2017-2019)で急速に進みました。
ケモインフォマティクスはすでに様々な場面で利用されていますが関連情報はあまりありませんでした。この理由として考えられることはいくつかありますが、オープンソースのツールキットが存在しなかった、公開データベースが存在しなかった、という二点が最も大きな原因なのは間違いありません。しかし、RDKitというオープンソースのケモインフォマティクスツールキットとChEMBLという公開データベースの登場により、この点は解消しました。
近年では、ケモインフォマティクスもバイオインフォマティクス同様、ウェブで検索すれば多くの情報がすぐに得られ、自己学習することは十分可能となっていますが、最初の一歩を踏み出すためのまとまった情報として、「ケモインフォマティクスに関する基礎を学び、それらを応用できるようになるコンテンツ」を用意することにしました。近年のAI創薬ブームを考慮して後半の章では「AI創薬」の文脈で用いられるディープラーニングを利用した化合物の活性予測と化合物提案の章を収録していますので、一通り学習することで、最近のトレンドについていけるようになっているはずです。
- warning
-
ここは@iwatobipenがRDKitについて熱く語るサブセクションです。下書き段階での「申し上げる」とか「踏まえて」等の言い回しをそのまま生かし、自称が「拙者」で「ござる」調の@iwatobipen風文体です。
拙者、本書の一部を執筆する@iwatobipenと申す。ここではRDKitに関して熱く語ってみようと思うでござる。
RDKitのRDはなんなのか?実はRational Discoveryの略称であり現在のオープンソースの前身となるフレームワークは2000年に開発されたでござる。随分と古いでござるね。その後、2006年にコードがオープンソースになりsourceforgeから公開されたでござる。PythonのケモインフォマティクスツールキットはRDKit以外にOpenBabelもあるぞと思われる読者もござろう。OpenBabelは2005年に最初のリリースがなされておる。いずれも、もう10年以上の歴史があるツールキットでござる。拙者がこの辺りに興味を持ち始めた2012年ころはどちらかというとOpenBabelの方がメジャーだったように記憶しておる。当時、日本語の記事はほぼ皆無であり、拙者は本書共著者であり業界のパイオニアでもある@fmkz___殿のケモインフォクックブックなどを参考にRDKitのコードを書いて試行錯誤していたでござるよ。なお、ケモインフォ関連のヒストリを追いたい御仁はこちらの記事を一読されるとよかろう。
おっと話が横道に逸れてしまった。本題に戻ろう。
開発者のGreg Landrum氏いわく
RDKitはケモインフォマティクスにおけるSwiss Army Knifeであり、様々な機能ピースの集合体である
これはまさに的を得た表現でござる。公式ドキュメントを見ればわかるでござろうが、既に色々な機能が用意されておるのだ。 化合物情報の読み込み、書き込みに始まり、構造の描画、3次元構造配座発生、Rグループ分解、記述子、フィンガープリント計算、ファーマコフォア算出などなど、挙げればきりがないほどの機能が実装されておる。解析から可視化まで幅広い範囲をカバーできるのだ。 さらにContributerらがRDKitを利用して開発したツール群がその熱い想いとともにContribフォルダーに詰められておるのだ。どうじゃ使ってみたくならんか?。拙者はもう書きながらも早くRDKitに触りたくなってきたでござる。
Note
|
@iwatobipenももちろんContributerの1人で、Fastclusterという大量の化合物ライブラリを高速にクラスタリングするコードを提供しています。(by @fmkz___) |
RDKitは開発やユーザーコミュニティの活動も活発で、どんどん機能追加がされておる。世界中の有能な研究者が全体で盛り上げ開発していくスタイルはオープンソースの強みであり、魅力であろう。もしチャンスがあれば毎年開催されるRDKit User Group Meetingへの参加を検討するのもよかろう。Face2Faceでユーザー同士議論ができるのは何事にも代え難いものがあるでござる。 また、先ほど拙者が使い始めた当時は日本語の情報ほぼ皆無であったと申したが、近年は非常に良質な日本語記事もたくさん増えておる。下記に何個か例を挙げたでござる。Qiitaにも多くの記事が掲載されているでござるよ。
また、有志によるRDKit-users-jpも立ち上がっておる。英語での質問がちょっと、、、と思われる御仁はこちらに質問を投げかけるとよかろう。また、最新版のRDKitのリポジトリには日本語のドキュメントもマージされておる。こちらも参考になるであろう。 本書ではRDKitの一部の機能しか使わん。それでも非常に多くのことができると感じていただけるはずじゃ。興味持ちはじめの一歩を踏み出したら後はどんどん自分の興味、意欲のままに足を進めていけばよかろう。何かわからないことがあれば上記のコミュニティに問いかけ、本書のリポジトリへIssueとして投稿してみるのもよかろう。 さあそれでは始めよう!
次のような方々を読者として想定しています。
-
医学薬学系の大学院生及び薬学系のデータ解析を行いたいポスドク
-
製薬企業の薬理研究者で自分のデータを自分で解析したい人
-
創薬化学者でケモインフォマティクスの必要性を感じている方や謎の力により突然アサインされた方
-
ケモインフォマティクスを学んでみようと考えているバイオインフォマティシャン
-
AI創薬に興味があるがなにからはじめたらいいかわからない人
本書で使用したプログラミングコードは全てMishima.sykのpy4chemoinformaticsリポジトリのnotebooksディレクトリに置いてありますので利用してください。またそれぞれの章の最初のにその章のJupyter notebookへのリンクを張っていますので適宜参照してください。
2章のインストールを行うとgitコマンドが使えるようになりますので、以下のコマンドでpdfを含む本書の全てのデータがダウンロードできます
$ git clone https://github.com/Mishima-syk/py4chemoinformatics.git
もともとはBioに対してChemoと語感を合わせて登場してきたように記憶しているが、Journal of Cheminformaticsの創刊により一時期Chemに大きく離されていました。
最近のGoogle trendによるとどちらでもいいようですが個人的にはRhymeを重視したほうが良いと思うので本書ではChemoの方を使うことにします。
本書を執筆するにあたり、バグフィックスや改善のための助言をしてくれた以下の方々に感謝いたします。
@antiplastics, @bonohu, @ReLuTropy, @ski_nanko, @torusengoku, @yamasaKit_, keisuke-yanagisawa, Masaru Nagaku
ここから先は(Nujabes - reflection eternalを聴きながら書きました by @fmkz___ 2019/03/03)
まず、本書を書くきっかけとなった@bonohuに感謝したいと思います。@bonohuのDr. Bonoの生命科学データ解析の出版後のMishima.sykのミーティングで「Bono本のChemoinformatics版あったらいいよね」という話がどこからともなくでた際に、「書けばええんちゃう、むしろなんで書かんの?」と言ってくれたことが本書を執筆するきっかけであることは間違いありません。また@souyakuchanの創薬 Advent Calendar 2018も執筆のいい刺激になりました。というより、ここで章立てしなかったら具体的に動き出さなかったと思います。
また、忘れてはいけないのはy-samaの存在です。Mishima.sykを初期から盛り上げてきたy-samaは2019/01/06に永眠しました。彼はデータサイエンティストを目指す人のpython環境構築 2016やDruglikenessについてのよもやま話といった素晴らしいエントリを残しました。彼が存命であればきっと3人で執筆していたし、内容ももっと充実していたことでしょう。この出来事も我々に執筆しようという強い動機を与えました。
最後にMishima.sykに参加して美味しいワインやビールを飲みなから毎度熱い議論を交わしていただいた参加者の方々にも感謝します。いくつかのコンテンツはMishima.sykでの発表をもとにしており、みなさんのフィードバックをもとに加筆訂正してあります。
もし、本書を読んで、ケモインフォマティクスって面白いなと感じたり、創薬やってみたいなと感じる方がいたら、是非Mishima.sykに参加してみてください。きっと楽しいと思います。今後の創薬研究では所属を超えてお互いにプッシュしあって自身のスキルを高めていくことが重要になるでしょう。というより、既にそういう社会になっているのだと思います。本書が皆さんの楽しい研究生活を送る役に立てば幸いです。
やりたいことをやって生きてきて 私自身は自分の人生に後悔はありません 人生は楽しんだもの勝ち 皆さんも嫌なことは嫌だと言って自分の喜びを最大限に追い求めて人生を満喫した方が楽しいと思いますよ 皆様の人生に幸多い事を願っています
This document is copyright © 2019 by @fmkz___ and @iwatobipen