Gyakutaniメモ

生物学と心理学の勉強メモ・本の感想

【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(5)

 
第5章 バイオインフォマティクスのマネジメント


 本章では、バイオインフォマティクス研究において生じやすい問題や注意点について列挙されています。

・人選がマネジメントの最初の通り道。実験計画法と分散分析は現在も浸透していない。
・ゲームの完全さに注意を払う。採用手法で本当に問題が解けるのかを検討する*1
・ゲノムのリファレンスは有無ではなく整備の程度問題である。ショートリードのマップ率やミスマッチの数でリファレンスを評価すべき。
・少しだけでも自分でデータを取ってみる。公共データベースでは付帯情報が少ない。データからの次のステップ、テーマと技術の親和性を見定めるためにも必要。
・サンプルサイズが大きさに気をつける。大きすぎると、実験時間が長くなり、RNA抽出ひいてはトランスクリプトームの結果を変える。培養後半の細胞を用いると起きやすい。
・生物種による特徴が原因で標準のプロトコルから逸れることを覚える。リボソームRNA電気泳動像など。
・ソフトウェアはフィルターとして理解する。ソフトウェアには長短があるが、本当に効果量の大きい生命現象は、ソフトウェアの特性に左右されず同じ解釈になるはずである。
・アンマップリードも活用できる場合がある。コンタミの確認、実験者の特定、病変部の病原菌の特定、新規の融合遺伝子の発見。
・公共データベースの利用。解析対象に似た現象や近縁種のデータから、必要データ量などは検討できる*2

 

総評

以上で本書の内容は終わりです。私の寸評としては、以下の通りです。

 

 第2章は、トランスクリプトームの情報エントロピーの重要性と活用法が詳しく描写されており、特に発現変動遺伝子解析を行う研究者には一読の価値があると思います。脱分化説の検証もストーリーとして面白く、初代細胞培養を行う研究者は興味深く読めるのではないでしょうか。

 一方で、第1章は内容の水準も第2章に比較して低く、存在が蛇足に感じられました。

 第3章と第4章は論の骨格や計画性が感じられず、著者が好きなことを好きなように書くエッセイのように感じられました。その上、内容もあまりバイオインフォマティクスといえないものでした。

 第5章のみが、マネジメント層向けという本書のテーマと合致していました。ここを掘り下げて、バイオインフォマティクス研究のマネジメント理論を構築し、体系化して、一冊にするべきであったでしょう。

 

 また、終始トランスクリプトームの話に尽きたのも、やや不満です。著者は「はじめに」において、ガリア戦記よろしく、最初に地図を広げて「バイオインフォマティクス」の世界を概観することが大切だと説いていました。バイオインフォマティクスは、生物学、情報科学統計学の三本の柱で支えられている、学際的ながらも領域の広い学問だと私は考えます。医用画像解析、行動データ解析、ベースコール、ゲノムアセンブル、タンパク質やRNAの立体構造予測、分子シミュレーション、GRN予測、生体信号処理、コネクトーム予測、代謝フラックス解析・・・。数え上げればキリがないほど、研究活動の領域は多岐に渡っていると思います。そのような多様さの中にも、三本の柱に支えられているが故に生じる共通の問題について扱って欲しかったです。

 結局のところ、本書はただの著者の研究紹介だったのではないかと思います。著者自身の過去の研究に関する特異的な話題ばかりでした。具体例を示すのは結構ですが、それがメインでは、著者の自伝を読んだ気分です。このような本では、体系化した理論とその適用範囲を示し、事例はそれに説得力を持たせるための補助材料であるべきです。本書は逆です。著者の事例をなぞりながら、工夫した点を紹介しているだけです。

 デザインの本などを読むと、様々な体系化された思考や計画、デザインプロセスのフレームワーク・理論を実際の事例と絡めながら紹介している書籍が多いことが分かります。生物分野の科学研究ではまだまだそんなものは少なく(バイオインフォマティクスではなおさら)、本書にはそれを期待していましたが、残念ながら期待外れでした。


 書物としての体裁のレベルが低いことも、残念でした。読み手に大変フラストレーションを与える仕上がりになっています。どうして出版までに誰も気づかなかったのでしょうか?

 これまで何度も指摘したように、図番号が本文中で示されておらず、多くの図が小説の挿絵くらいの役割しか担っていません。引用記号が頻繁に抜けていることや*3、数学的な誤植*4、実験条件を述べた文章の誤記にも注意を払いながら読む必要があります。

 

  以上を総合して、研究室に一冊買っておく必要もないでしょう。(おそらく少数部出版のために)高価であるこという欠点も、入手しない選択を後押しします。発現変動遺伝子解析をしたい研究者に限り、本書を図書館で見かけたら第2章をぱらぱらとめくってみるのがおすすめです。

 

 

*1:ここで挙げられた事例の意味はよく分かりませんでした

*2:ただし、産業価値の大きな生物でそれを対象とするゲノム科学者が少ないものでは配列に問題があるなど、利害が反映されている場合があるそうです。マイクロアレイ製造業者と懇意にしている科学者の研究対象遺伝子がアレイに載っていないなんてこともあるそう。さもありなんという感じですね。

*3:引用にナンバリングしている意味が無いです。

*4:nはpの関数であり~(pp. 11)、など。

【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(4)

第4章 予言はどこに書いてあるのか

 本章は、ヒステリシスの話です。卑近なヒステリシスの例と、細胞実験への応用可能性についての説明が次のように始まります。

 

・例えば、外部磁界によって磁性体が得る磁力とその向きは、ヒステリシスを示す。ヒステリシス環線*1の囲む面積が小さいものは磁気ヘッドに、大きなものは永久磁石に利用される。
・任意の細胞を培養する際の二大障壁は、無菌操作の確立と、培地の発見である。無菌操作の成否は実験直後に判明するが、培地選択の成否は培養開始後一定期間の観察が必要である。

・培地の探索には、近縁種で実績のある培地を試したり、既知の培地や添加剤を混合したり、由来生物の結成を利用することもあるが、いずれもコストが大きい。

・そこで、著者はヒステリシスを培地選択の定量的指標にできるのではないかと考えた。著者の経験より、適合した培地は初代培養の再現性が高く安定しているので、環境変化の影響を受けづらいと考えたためだ。

・まず、適合培地と非最適培地を用いて、第二章で行った生理活性物質濃度とトランスクリプトームの情報エントロピーのグラフに現れるヒステリシス環線内の大きさを比較した。すると、適合培地の方が大きい曲面を示した。

 

 第2章に掲載されたグラフではヒステリシス曲面なるものが私には確認できなかったので、詳細な結果が気になりましたが、本章ではグラフの掲示はありませんでした。そこで、参照先の特願を確認すると、確かに綺麗な曲面が出ています。この結果を二章で見たかったです。
 著者も指摘するように、ヒステリシス環線の囲む面積と培地適合性の関係を定式化することは難しいでしょう。しかも、ヒステリシス環線を求めるコストもきっと大きいので、本末転倒でしょう。

 その後、細胞の培養温度に対する細胞サイズのヒステリシスの話になります。

 

・細胞の培養温度を低下させると、ある温度から急に細胞サイズが小さくなることが知られており、ヒステリシスを予見させる。

・細胞はタンパク質と水のゲルとゾルでできているが、ヒドロゲルの体積は環境温度に対して多極安定性とヒステリシスを示すことが知られている。

・ほとんどのヒドロゲルは温度の上昇で体積が小さくなるが、一部は温度の低下で体積が小さくなる。そこで、細胞サイズの環境温度に対するヒステリシスを検証した。

・浮遊細胞を温度を8時間毎に上げたり下げたりしながら培養し、vicellで細胞の直径を測定した。するとヒステリシスを示した*2

 

 このグラフの各点はフラスコ中の細胞集団の平均値のような気がします。それならば、各フラスコについての経過を示してくれないとヒステリシスを示しているかは分からないのではないでしょうか。

 ちなみに、この培養温度-細胞直径のグラフは、多極安定なように見えます。

 

・次に、接着性細胞を用いて同様の実験を行い*3、顕微鏡写真で1分刻みで1細胞ごとの挙動を追跡した。すると98個中61個が1回だけ分裂した*4

・そのうち6個は、二回目の31℃*5で初めて分裂していた。

・温度依存的な細胞サイズの変化が細胞の何と関連するかを見るために適当だと考え、29℃→27℃→29℃での細胞サイズを測定した。しかし、特に細胞サイズの変化に傾向は無かった。そのため、1細胞ずつ観察するとそれが見えない。しかし、二回の29℃の平均サイズより27℃のサイズが小さい細胞では互いに似た娘細胞が、二回の29℃の平均サイズより27℃のサイズが大きい細胞では互いに似ない娘細胞が生まれたことから、温度と細胞サイズのヒステリシス環線の囲む面積が大きい細胞の方が遺伝が起こりやすいのだろう。ヒステリシス環線の囲む面積が大きい細胞の方が、分裂直前の娘細胞間の同期が活発なのではないか。

 

 ここで何故か浮遊細胞を使った実験で平均値として27℃で細胞サイズの低下が観察されたことと比較しています。接着性細胞と浮遊性細胞など、条件が異なるからナンセンスではないでしょうか。ふつうに接着性細胞を使った実験での平均値を求めれば良いだけでしょう。また、二回の29℃の平均サイズより27℃のサイズが小さいことがなぜヒステリシス環線の囲む面積が大きいことの指標になるかも不明です。

 この後、このヒステリシスの応用可能性についての実験紹介とそれにかかる議論が以下のようにあって、この章は終わりです。


・娘細胞が親細胞と似ることは継代安定性と言い、バイオ医薬品などの製造用細胞株に必要な特長である。

・現場的には、生産する抗体タンパク質の濃度が継代を経ても減少しないことを継代安定性が高いと言う。

・継代安定性を調べるには通常長期間の継代が必要だが、これを短期に調べることができれば、生産に用いる細胞株の候補を増やせる。

 

・浮遊性の抗体生産細胞を同様の温度サイクル下で培養して直径を測定すると、やはり同じようなヒステリシスを示した。

・さらに、ヒステリシス環線の面積の大きさ*6と継代安定性*7は相関した。

・再度温度サイクル中で細胞を培養して、今度はトランスクリプトームのコルモゴロフ複雑性を算出した。すると、温度に対してヒステリシスは示さなかった。

・以上より、今回の遺伝現象には、核酸からなる遺伝情報より、コロイド溶液の性質・開放系秩序の遺伝情報の影響が大きいと考えられた。

 

 

*1:本文中では「ヒステリシス曲面」という言葉が使用されていますが、一般的ではないし、明らかに曲面ではないため、ここでは「環線」を用います。

*2:温度制御について、37℃→33℃→29℃→27℃→29℃→31℃→33℃→37℃と記されているが、グラフ中には31℃のデータが載っていません。31℃になると安定極を移動したという記述があり重要な点だと考えられるので、残念です。

*3:遅延をヒステリシスと誤解していないことを調べるために、「第2章と同様により短い環境変化経験時間で、同様の結果が出るか調べれば良い。」とあるが、なぜか同じ時間刻みでの温度変化をしている。

*4:この倍加時間は24時間

*5:二回目の31℃とは何のことだろうか。31℃と33℃を間違えているのか、31℃の一回目を書き忘れているのか分からない。そもそも31℃は無かったのかもしれない。重要な箇所であるだけによく分からないのが残念。

*6:恐らく正確には二回の29℃での細胞サイズの差のことだと思われます。

*7:継代後での生産するモノクローナル抗体の力価の継代前のそれに対する比

【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(3)

第3章 多様性の価値

 細胞の不均一さ(多様性)を役に立てるのが本章のゴールだそうです。そこで、著者は物質製造用細胞のサブポピュレーションに着目したようです。小数派過ぎるものに対する知見は効果量が小さいので、サブポピュレーションということらしいです。多様性そのものというよりは、平均値からは検出されないような性質を持った小集団を探索してその性質を活かすということのようです。

 

 本章の骨格がよく分からないまま、均一な培養条件の模索が始まります。以下、概要です。

 

・OpenFOAMで水平方向の加速度が周期変動するシミュレーションで、フラスコ内で液体と挙動をともにする粒子の速度と位置をトレースした。水深7 mmでは粒子の経験する速度にばらつきが生じるが、水深13 mmでそのようなばらつきが無くなることが分かった。

・この条件で細胞を培養して、シングルセルトランスクリプトームを取得した。この細胞は3~4日で対数増殖期になり、7~10日目まで最高密度が維持され(アポトーシスマーカーをチェックすると、数割が12時間以内にアポトーシスを控えていたので、細胞の増殖は停止していないかもしれない)、13日経過すると培養が崩壊する。トランスクリプトームは4、8、11日目に取得。

・シングルセルトランスクリプトームは、細胞周期依存的にデータを分類できると言われるが、今回はそうはならなかった。(よく用いられるのは接着性細胞であるが)今回用いたのは、浮遊性の細胞だった。

・そこで、その親株の接着性細胞をシャーレで培養したのち細胞周期でソーティングし、得られた32個の細胞のトランスクリプトームをPCAにかけた。すると、G1/G0期G2/M期で異なるクラスタに分かれた。したがって、よく言われるシングルセルのトランスクリプトームの細胞周期依存性は、接着性細胞の細胞周期に依存して変動する細胞周りの微小環境の変動によって引き起こされたと結論づけた。

 

 この結論はどうでしょうか。確かに浮遊性細胞の特徴を炙り出した重要な知見だと言えます。しかし、このデータだけで微小環境の変動だと結論づけられるものなのでしょうか。

 因果関係の正しさもよく分かりませんでした。接着性細胞であると何らかの別の原因でトランスクリプトームに細胞周期依存性が生じ、さらに微小環境の変動も引き起こすというシナリオはありえないのでしょうか。

 さらに、この結論となった接着性細胞トランスクリプトームのPCAである図8は微妙ではないでしょうか。確かにG2/M期の点は偏在していますが、統計的な処理をするとG1/G0期の点と異なる集団であるとこの図8からは言えないのではないでしょうか。生物学データから意味を見出すというテーマの書籍なのに、統計的側面がたびたび省略されているのが気になります。データの点数が少ないという印象もあります。これはNGSのコストの問題が出ているのかもしれません。浮遊性細胞のPCAの点が細胞周期で塗分けられていないのも謎です。

 

 結局、浮遊性細胞のトランスクリプトームPCAからはサブポピュレーションが現れないので、個々の遺伝子の発現量に基づく分類の可能性を探索したそうです。以下、概要です。

 

・それぞれの遺伝子について発現量ヒストグラムを描くと、エノラーゼなど約100遺伝子で二峰性が確認され、PCA上の点も分類することが分かった。

・この特定の遺伝子によるサブポピュレーションは、培養4日目で確認されたが、8日目と11日目では確認されなかった(多様化していた)。

・その理由としてDNA変異の蓄積による、トランスクリプトーム多様化を想定し、ミトコンドリアDNA配列を解析した。培養日数に関わらずDNA配列は多様化していた(そしてヘテロプラスミー頻度が予想より高かった、という主張。多分)

・複数の一細胞トランスクリプトームを混合したシミュレーションを行うと、ヘテロプラスミーの部位が異常に多くなるので、1細胞由来の(つもりの)クローン集団のモノクロナリティ検証にヘテロプラスミー頻度が使えそうである。

 

 この実験の意義はよく分かりませんでした。そもそもこの培養実験で1細胞スタートではなかったと言いたいのでしょうか。1細胞スタートだったのならDNA変異率と世代数からどのくらい変異が蓄積しているか分かるのではないでしょうか。

 また、配列多様性が培養日数に依存していなかったことは、何を意味しているのでしょうか。多様性が変異の蓄積で無く、そもそもの集団がヘテロジェネティックであったということでしょうか。細胞由来でも変異が蓄積すれば多様化するでしょうし、モノクロナリティ検証にDNA配列解析を用いるのは当たり前ではないでしょうか。私が何か勘違いしているのか?

 

 結局ゴールであった細胞の不均一さを役立てることはできたのでしょうか。本章を読むのは、地図も持たないまま暗闇の中を腕を引っ張って引き回された気分です。流体シミュレーションとPCAくらいしかしておらず、これはバイオインフォマティクスだったのだろうかとも思います。

 

 最後に、前口動物の血球細胞の多様性に話が移ります。以下、概要です。

 

・1細胞トランスクリプトームによると、培養した血球細胞は多様な攻撃対象のポジティブリスト(攻撃対象を認識できる。

・ヒトの免疫はネガティブリストで、攻撃しない対象を認識してそれ以外を攻撃する)を持っていることが分かった。

ポジティブリストは攻撃対象の増加に従い検索コストが増大するし、不測の事態に対応しにくい。トランスクリプトーム多様性は、検索コスト増大を避けるために血球間で分業を示唆しているかもしれない。

・しかし、分業は有効血球濃度を下げることにもなる。実際に細胞貪食シミュレーション(微生物が撒かれた二次元平面上を血球がランダムウォークする)をしてみたところ、体の大きさがカブトムシの幼虫程度だと異物見逃しの確率が12%程度だが、体のサイズが5倍になると80%近くになる*1

・ここで、巨大昆虫の絶滅について、ポジティブリストで大きな体から多様な侵入者を排除するのが難しいことを原因とする仮説を提唱する。微生物特有のペプチドグリカンに限れば、昆虫の免疫タンパク質であるペプチドグリカン認識タンパク質の多様性は、分子系統樹から単純に考えれば増加している。このペプチドグリカン多様化が巨大昆虫絶滅にクリティカルだったのではないか。

・既存の説として、大気中の酸素濃度低下による血中酸素濃度の維持障害を紹介する。しかし、現生昆虫の血中酸素濃度はとても低く、また肺の発見もあるため、この説は正しくないのではないか。

 

 巨大昆虫絶滅のペプチドグリカン多様化原因説は実に面白い話だが、私の知識では議論の妥当性が判断できませんでした。一部の軟体動物などの巨大さについてはどう考えているのでしょうか。

 

*1:微生物は動かない設定になっていますが、タイムスケール的に妥当なのでしょうか。また、シミュレーションの結果から0.006 mm3あたり0.1%の除去失敗率が設定されていますが、これもなぜそうなったのか分かりませんでした。

【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(2)

第2章 違いを見つける 

 

 本章は、情報エントロピーおよび細胞の脱分化についての解説が充実しており、本書でも力の入っている章だと感じます。情報エントロピーは、第一章で、トランスクリプトームデータを取る際の薬剤濃度を決定するためのパラメータでした。 

 

 まず、細胞の脱分化の話になります*1。個体中の増殖を止めた細胞を培養すると形態の似通った細胞群が増殖してきます。脱分化仮説は、細胞が培養環境に移されると生体内での特徴を失って始原形質に戻ることで増殖するという説明をこの現象に与えます。これに対し、培養環境に移された細胞群から取り出された細胞の内、環境に適合したものが増殖することで同じ結果を与えるという選択仮説も存在します。これまでに、抗肝臓血清と抗培養細胞血清に対する肝臓の初代培養の結果から、選択仮説が取られていました*2 *3

 

  著者は、選択仮説の検証で、培養後直ちに増殖する細胞を使ったことを問題視します*4細胞集団が変化してしまうため、元の集団の変化を測定できないし、細胞周期の影響もあるからです。著者は培養後すぐには増殖しない(多分カイコガの)細胞の培養前後のトランスクリプトームを比較しました*5結果、培養後は遺伝子発現の偏りが緩和されており、脱分化説を支持する結果となりました。この「遺伝子発現の偏り」を定量する指標となったのが、情報エントロピーでした。NGSではサンプルごとにリード数が異なりますが、数百キロリードから数百メガリードの範囲では、情報エントロピーに影響しなかったため(モンテカルロ法でランダムにリードを削りながら情報エントロピーの変化を見て検証)、数メガリードあればトランスクリプトームの情報エントロピーを正しく推定できるとしたようです*6

 そして、公共データベース上のトランスクリプトームの情報エントロピーを計算したところ、カビや昆虫の細胞は、哺乳類や酵母の細胞より不均一なトランスクリプトームを示していました*7。また、ヒトやハエにおいても培養細胞は個体中の細胞より情報エントロピーの大きなトランスクリプトームを示していました。選択説が正しければ、情報エントロピーは小さくなるはずです。 

 

 次に、生理活性物質の刺激による再分化の話になります。著者は、様々な濃度の親水性または疎水性の生理活性物質*8を添加した培地で細胞を培養しました。すると、0.25 μM1 μMの間を境に、エントロピーは二値に分かれましたた。もしこの境界が線形に埋められるような形(全体としてはシグモイド曲線のような形)でなければ、トランスクリプトームのエントロピーは双極安定な可能性があります*9。双極安定ならば、ヒステリシスを示すはずなので、生理活性物質の濃度を高くしてから低くする条件と、ずっと低い条件のエントロピーを比較しました*10。そして、エントロピーがヒステリシスを示したという結果が紹介されます。

 この結果でヒステリシスを主張するのは微妙でしょう。根拠となる図が最後に登場しますが、文章から読者が想像するものとやや異なると思います(x軸方向にずれた二つのヘビサイド関数のようなグラフを想像した)。0 mMから0.25 mMにした場合と1 mMから0.25 mMにした場合で有意な差があるようには見えません。定量尺度の重要性を説明しながらなぜ統計処理を行わないのでしょうか。本文中では「比較対象にした」と述べている単に0.25 mMで培養した際のデータが無いのも謎です。単に1 mMで培養した際のデータも必要でしょうが、本文にも図にも見当たりません*11

 ところで、1 mMで培養すると再分化し、その後0 mMにするとエントロピーが大きくなっていますが、これは再脱分化が起きているということになるのでしょうか。また、再分化はどのようにして選択と区別するのでしょうか。また、DNA配列についても同様にエントロピー増大しているのかも気になります。 

 

 著者は、発現変動遺伝子比較解析には、情報エントロピーが異なる値域(安定極)に収まるトランスクリプトーム同士を比較すべきでないと指摘します。異なる安定極にある細胞は、異なる状態(分化の度合いでしょうか)にあるため、発現遺伝子を比較できないという主張です。そして情報エントロピーが、生体内でありえないような高濃度の物質で処理した条件を不適切だと判断する定量尺度になると言います。

 過去の研究を振り返ってこれを満たしていないものもあるのだとしたら重要な指摘でしょう。第一章では、同様なエントロピーを示す範囲内で薬剤濃度を決定したので、発現変動遺伝子が数百にならずに数十に収まったということでしょうか。数百以上の遺伝子が候補に挙がってしまう理由が安定極の違いだとしたら、そのような論文は全て不適切ということでしょうか。しかし、いったいトランスクリプトームの情報エントロピーの安定極が切り替わるとき、細胞の中では何が起きているのでしょう。 

 

 最後に、バイオインフォマティクスにおける情報エントロピーの使い方について複数挙げられています。 

(1)定量的な分化マーカーとしての情報エントロピー。質的な遺伝子マーカーの発現からある細胞が分化しているはずなのに、機能しない場合があるそうだ。その場合、本当に分化した細胞と比較してトランスクリプトームの情報エントロピーが大きくなっているかもしれない。 

(2)細胞の培養経過の定量マーカー。同じ時間細胞を培養しても、品質が異なる場合がある。トランスクリプトームの情報エントロピーが揃うように培養時間を調節することで、品質を揃えられる。物質生産用の細胞などに応用できる。 

(3)遺伝子発現ネットワーク解析におけるサンプルの選択マーカー。これはトランスクリプトームのではなく、遺伝子発現ネットワークのエッジ(遺伝子間の相関係数)の情報エントロピーである。遺伝子の共発現ネットワークを推定するには、様々な摂動に対するトランスクリプトームを収集すればよい。しかし摂動が大きすぎると遺伝子ネットワーク自体が切り替わってしまい、複数のネットワークが混在してしまって推定ができないという問題がある。複数のネットワークが混在すると、共発現するエッジが混じるので、相関係数エントロピーは大きくなる。しかし、混じり具合に双極性は無いだろうから、どのぐらいエントロピーが大きいと危険だとかまでは言えないのかもしれない。具体的にどのサンプルが混じり物だとかも定量的な指標ができると良さそうだ。 

 

 その後少し話がそれて、タンパク質が修飾されて酵素として機能し、さらに代謝物が蓄積されてメタボローム測定で検出可能になるまでのタイムラグを考慮すると、メタボロームはトランスクリプトームと同時には取れないという点が指摘されます。そこで、複数の時刻でメタボロームとトランスクリプトームを取り、酵素遺伝子の発現量と基質ー代謝物の量比の符号の一致数が多い時間を採用すべきであると主張します。

 

 また、発現量が0であった遺伝子はトランスクリプトームの情報エントロピーの値に影響を与えない(そのような遺伝子は無かったことにされる)という問題も指摘します。その解決策としてコモロゴロフ複雑性が挙げられています。 

 

 いくつか疑問が残った章ですが、一度は棄却されていた脱分化説を直感から検証したのは流石であり、ウェットとドライの両方を自分で作業する著者ならではでしょう。さらに、トランスクリプトームの情報エントロピーの生物学的意義の解説は貴重であり、多くの研究者の参考となるのではないでしょうか。この章のために本書を読む意義はあると思います。逆に本章があれば第1章は不要だったような気もします。あと、第1章もそうでしたが、ウェット実験を説明する概略図が無いのは不親切です。図は文中の誤表記もカバーできます。 

 

 

*1:Wikipediaの「脱分化」の項目は、著者が作成、編集したと考えられます。

*2:このあたりは図が無いので理解に苦労しました。「そして、抗培養血清から肝臓以外の組織に吸着する抗体を除いた血清、これはこの動物の肝臓以外の抗原ほぼ全てに結合すると思われるが」という文は、何度か読み返しても分かりませんでした。

*3:ここで、洞窟に移住した魚の退色と失明が選択ではなく遺伝的浮動であるとQTL解析で結論付けた2007年のProtasらの研究が引用されています。 

*4:選択仮説の検証実験では培養期間が一週間でしたが、これらが不死化してセルラインになるとは言い切れないそうです。

*5:ここで、遺伝子発現量解析におけるマイクロアレイに対するNGSの利点(ダイナミックレンジの大きさ)が指摘されています。他にも、未知配列の検出など、NGSの方が遺伝子発現量解析において優れた点が多くありそうです。業界的にマイクロアレイはもうあまり使われていないのでしょうか。問題はコスト面かな。

*6:このあたりで、「plog(p)が0<p<1/eの範囲で単調増加」という趣旨の文が繰り返されますが、マイナス記号をつけて-plog2(p)と読み換える必要がありそうです(元論文でも「plog(p)が単調増加」になっています)。

*7:約380,000(そんなに少なかったっけ)の既知の生物種の半数を昆虫が占めている(進化的に繁栄している)理由の考察として、トランスクリプトームの特殊化(不均一化)による器官の分業による効率化を挙げていますが、器官間の分業が生物種を増やすことの論理がよく分かりませんでした。器官分業化が種分化を進めるメカニズムが知られているのであれば非常に気になるところです。

*8:フェノバルビタールとシス-ペルメトリン

*9:実際には多極安定でしょうか。培養前のエントロピーが再分化後よりも極端に低いこともそれを示す気がします。

*10:なお、遅延をヒステリシスと勘違いしないように、エントロピー変化の開始と安定にかかる時間を事前に調べておく必要があるようです。

*11:他にもμMが突然mMになっていたり、単位の記法が誤っているなど気になる点が多いです。

【感想】バイオインフォマティクスを用いた研究開発のポイントと実例(1)

 情報機構が出版するバイオインフォマティクス研究のマネジメントを解説した書籍です。128ページに対し定価は33,000円と高価ですが、教育研究機関向けの専門書であり、少数部発行ということなのでしょう。

 

今回、本書を選択した個人的な理由は以下の通り

インフォマティクスと題してあるため馴染みやすそう・手始めに適していそう

・ページ数が少ない、挫折せず読み切れそう

・その割に高価(貴重な情報がある?)

・ウェブ上に情報が少ない 

 

著者

 著者は日本バイオデータの社長の緒方法親。博士課程を取得後、企業研究員を経て、生物学的データの解析を行う事業を立ち上げたそうです。

 

はじめに

 本書の出版に至る経緯が描かれています。本書はバイオインフォマティクスにかかる読みものとして執筆されたようです。読みもの形式を選択した理由として、次の二点を挙げています。

  1. 技術手引の解説については魅力的な書籍が多数存在する(著者も手引書をすでに執筆配布している)。
  2. バイオインフォマティクス研究の実験解析作業ではなくマネジメントに従事する人に向けた書籍が不足している。

 1については完全には同意できません。「統計学:Rを用いた入門書 改訂第2版」と「次世代シークエンサーDRY解析教本」を例示されていますが、前者はバイオインフォマティクスの本ではありません。もちろんバイオインフォマティクスの研究に統計学やRの技術は欠かせないでしょう。しかし、生物学的データの解析に特異的な技術的問題は多く存在するだろうし、それについて解説した書籍は生物学的データの巨大さ・多様さと比較して不足しているという印象です*1

 一方で2はその通りだと感じましたが、果たしてどの程度需要が存在するのかは私には分かりません。マネジメント層のバイオインフォマティクスの知識不足による問題はどの程度大きいのか*2、マネジメント層がどの程度その問題を認識しているかは気になるところです。

 

第1章 鍵となる因子を探す

 本章では、バイオインフォマティクスにおいて大きな割合を占める分野でもある次世代シークエンサーデータの解析について述べてあります。

 話は、薬剤抵抗性を例にします。作用機序の異なる二種類の抗生物質を交互に使用することで、それぞれの薬剤抵抗性遺伝子を持つ個体数が振動し、集団の大きさを理想的には制御できるそうです。しかし、実際には多剤抵抗性や正の交差抵抗性によって、そのような理想的なコントロールは難しいという問題があるようです。そこで、負の交差抵抗性をバイオインフォマティクスで見つけることで、この問題を解決しようということのようです。

 

 負の交差抵抗性を網羅的に調査する場合、例えば農薬では約24,000件登録されているため5億7000万通り以上の組み合わせが存在するという組み合わせ爆発の問題があるようです。この膨大な組み合わせ数にも関わらず負の交差抵抗性は昆虫では現在11件しか見つかっていないそうです。このことは、負の交差抵抗性の頻度が小さく発見が困難であることを示唆するという主張です。

 

 話はゲノム解読技術に一度移ります。二倍体でヘテロザイゴーシティの高い生物のゲノムアセンブリをどのようにするか? 中国の研究チームが2012年にNatureに発表した牡蠣ゲノム解読の論文では、その手法が議論されているようです。近交系からフォスミドライブラリを得ることでこの問題を解決し、ゲノムサイズはFCMとk-mer分布解析で推定したそうです*3。 2018年の動物のゲノム決定の流れとしては、PacBioのRSIIでシークエンスしたのちcanuでアセンブリすれば良いようですね(著者の研究)。アノテーションFATEで自動化されているらしいです。

 

 ここで、あるモデル生物に薬剤を添加する実験の記述が始まります*4。薬剤添加前後のトランスクリプトームから発現変動解析をするのですが、遺伝子数が2万なら発現変動遺伝子は数百から数千になり、検証対象にすべき遺伝子が分かりません。そして遺伝子ネットワークやGene ontologyがなんとなく載せられただけの論文になるそうです。そこで、著者らはトランスクリプトームデータを情報エントロピーにより点数化して、適切な薬剤濃度を決定することでこの問題を乗り越えたそうです*5

 その後、実験と解析方法が解説されます。このような実験では動物細胞を培養する培地に微生物のコンタミを防ぐ抗生物質を添加しないそうです。微生物が混入した場合、細胞が微生物に応答してトランスクリプトームが変化してしまうからとのこと。シークエンスライブラリの調製とFASTA、FASTQファイルについて技術書に近い解像度で説明されています。FASTQファイルのチェックには、FastQCを使うと良い、といったように。

 そんなこんなで発現変動遺伝子が80個得られ(なぜか使用するコマンドが詳細に書かれている)、薬剤のcis体とtrans体で重複した5個の発現変動遺伝子うちの一つはそれをターゲットとする薬剤がよく知られており、実験で使った薬剤との負の交差抵抗性が期待できる、という流れになります。

 最後に、先のモデル生物と近縁の敵性生物を用いて負の交差抵抗性を検証します。最初の薬剤で生き残った個体群の子供たちと野生型群の薬剤濃度に対する死亡率をプロットすると、たしかに耐性子供群の方が野生型より薬剤への感受性が強いことを示すようなカーブが得られました。この評価は、一般線形混合モデルで行い、二種類の薬剤処理それぞれと交互作用を含めた5種類のモデルについて、もっともAICの小さいモデルを選択します。この辺は参考になりそうですね。

 

 本章は、初代培養細胞への薬剤添加実験、シーケンスライブラリ調整やFASTAやFASTQファイルの処理方法などについての詳細な手順が解説されていて、技術的な毛色が濃くなっています。著者が「はじめに」で指摘したように「次世代シークエンサーDRY解析教本」などの技術書を読めば良いような気もします。ウェットとドライの両方をストーリーとして追うことでマネジメント層にいろいろ気付きを与えたいということでしょうか。ところで、この手法を使い回すことで新しい負の交差抵抗性が次々発見されるようになっているのでしょうか。少し気になります。

*1:私も今回バイオインフォマティクスの書籍を探したが、あまり選択肢が無かったです。

*2:2014年の理化学研究所ハーバード大学医学校、山梨大学の共同研究によるSTAP細胞の事件が例示されています。

*3:ちなみに牡蠣の貝殻は血球らしい。

*4:本章に引用の明記はないが恐らく著者が2015年に発表した論文。

*5:この辺りは全くついていけませんが、第二章で詳細が説明されるらしい。