【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(1)
情報機構が出版するバイオインフォマティクス研究のマネジメントを解説した書籍です。128ページに対し定価は33,000円と高価ですが、教育研究機関向けの専門書であり、少数部発行ということなのでしょう。
今回、本書を選択した個人的な理由は以下の通り
・インフォマティクスと題してあるため馴染みやすそう・手始めに適していそう
・ページ数が少ない、挫折せず読み切れそう
・その割に高価(貴重な情報がある?)
・ウェブ上に情報が少ない
著者
著者は日本バイオデータの社長の緒方法親。博士課程を取得後、企業研究員を経て、生物学的データの解析を行う事業を立ち上げたそうです。
はじめに
本書の出版に至る経緯が描かれています。本書はバイオインフォマティクスにかかる読みものとして執筆されたようです。読みもの形式を選択した理由として、次の二点を挙げています。
- 技術手引の解説については魅力的な書籍が多数存在する(著者も手引書をすでに執筆配布している)。
- バイオインフォマティクス研究の実験解析作業ではなくマネジメントに従事する人に向けた書籍が不足している。
1については完全には同意できません。「統計学:Rを用いた入門書 改訂第2版」と「次世代シークエンサーDRY解析教本」を例示されていますが、前者はバイオインフォマティクスの本ではありません。もちろんバイオインフォマティクスの研究に統計学やRの技術は欠かせないでしょう。しかし、生物学的データの解析に特異的な技術的問題は多く存在するだろうし、それについて解説した書籍は生物学的データの巨大さ・多様さと比較して不足しているという印象です*1。
一方で2はその通りだと感じましたが、果たしてどの程度需要が存在するのかは私には分かりません。マネジメント層のバイオインフォマティクスの知識不足による問題はどの程度大きいのか*2、マネジメント層がどの程度その問題を認識しているかは気になるところです。
第1章 鍵となる因子を探す
本章では、バイオインフォマティクスにおいて大きな割合を占める分野でもある次世代シークエンサーデータの解析について述べてあります。
話は、薬剤抵抗性を例にします。作用機序の異なる二種類の抗生物質を交互に使用することで、それぞれの薬剤抵抗性遺伝子を持つ個体数が振動し、集団の大きさを理想的には制御できるそうです。しかし、実際には多剤抵抗性や正の交差抵抗性によって、そのような理想的なコントロールは難しいという問題があるようです。そこで、負の交差抵抗性をバイオインフォマティクスで見つけることで、この問題を解決しようということのようです。
負の交差抵抗性を網羅的に調査する場合、例えば農薬では約24,000件登録されているため5億7000万通り以上の組み合わせが存在するという組み合わせ爆発の問題があるようです。この膨大な組み合わせ数にも関わらず負の交差抵抗性は昆虫では現在11件しか見つかっていないそうです。このことは、負の交差抵抗性の頻度が小さく発見が困難であることを示唆するという主張です。
話はゲノム解読技術に一度移ります。二倍体でヘテロザイゴーシティの高い生物のゲノムアセンブリをどのようにするか? 中国の研究チームが2012年にNatureに発表した牡蠣ゲノム解読の論文では、その手法が議論されているようです。近交系からフォスミドライブラリを得ることでこの問題を解決し、ゲノムサイズはFCMとk-mer分布解析で推定したそうです*3。 2018年の動物のゲノム決定の流れとしては、PacBioのRSIIでシークエンスしたのちcanuでアセンブリすれば良いようですね(著者の研究)。アノテーションはFATEで自動化されているらしいです。
ここで、あるモデル生物に薬剤を添加する実験の記述が始まります*4。薬剤添加前後のトランスクリプトームから発現変動解析をするのですが、遺伝子数が2万なら発現変動遺伝子は数百から数千になり、検証対象にすべき遺伝子が分かりません。そして遺伝子ネットワークやGene ontologyがなんとなく載せられただけの論文になるそうです。そこで、著者らはトランスクリプトームデータを情報エントロピーにより点数化して、適切な薬剤濃度を決定することでこの問題を乗り越えたそうです*5。
その後、実験と解析方法が解説されます。このような実験では動物細胞を培養する培地に微生物のコンタミを防ぐ抗生物質を添加しないそうです。微生物が混入した場合、細胞が微生物に応答してトランスクリプトームが変化してしまうからとのこと。シークエンスライブラリの調製とFASTA、FASTQファイルについて技術書に近い解像度で説明されています。FASTQファイルのチェックには、FastQCを使うと良い、といったように。
そんなこんなで発現変動遺伝子が80個得られ(なぜか使用するコマンドが詳細に書かれている)、薬剤のcis体とtrans体で重複した5個の発現変動遺伝子うちの一つはそれをターゲットとする薬剤がよく知られており、実験で使った薬剤との負の交差抵抗性が期待できる、という流れになります。
最後に、先のモデル生物と近縁の敵性生物を用いて負の交差抵抗性を検証します。最初の薬剤で生き残った個体群の子供たちと野生型群の薬剤濃度に対する死亡率をプロットすると、たしかに耐性子供群の方が野生型より薬剤への感受性が強いことを示すようなカーブが得られました。この評価は、一般線形混合モデルで行い、二種類の薬剤処理それぞれと交互作用を含めた5種類のモデルについて、もっともAICの小さいモデルを選択します。この辺は参考になりそうですね。
本章は、初代培養細胞への薬剤添加実験、シーケンスライブラリ調整やFASTAやFASTQファイルの処理方法などについての詳細な手順が解説されていて、技術的な毛色が濃くなっています。著者が「はじめに」で指摘したように「次世代シークエンサーDRY解析教本」などの技術書を読めば良いような気もします。ウェットとドライの両方をストーリーとして追うことでマネジメント層にいろいろ気付きを与えたいということでしょうか。ところで、この手法を使い回すことで新しい負の交差抵抗性が次々発見されるようになっているのでしょうか。少し気になります。