国立医薬品食品衛生研究所 | Teradata のデータマイニング・コンサルティングにより、遺伝子発現解析研究(トキシコゲノミクス)を強力にサポート

研究所概要

国立医薬品食品衛生研究所(National Institute of Health Sciences, NIHS)は、明治7年(1874年)、医薬品試験機関、すなわち官営の東京司薬場として発足したわが国で最も古い国立試験研究機関です。当研究所は、医薬品や食品のほか、生活環境中に存在する多くの化学物質について、その品質、安全性および有効性を正しく評価するための試験、研究、調査を行っています。

NIHS毒性部では、科学・産業の発展により生み出されている新しい医薬品や食品添加物・サプリメント、工業化学物質等、身のまわりの様々な化学物質について安全性を確保するための毒性試験・研究を行い、問題のある化学物質をいち早く見いだして被害を未然に防止すべく活動しています。特に重点として、神経系・免疫系・内分泌系などの高次生命系や、ナノマテリアルなどの新規物質、胚の発生と形態形成に関わる障害発生機構などの試験法開発に関する研究を進めています。さらに、遺伝子組換え動物による研究の精緻化、培養細胞等による代替試験法の開発、そしてマイクロアレイによるトキシコゲノミクスの確立など、時代の要請に即した研究も強化しています。

課題

ここ十年で、分子生物学の分野は飛躍的な進歩を遂げました。ヒトの遺伝子の解読が終了し、遺伝子の静的な全容を掴むことができ、現在は、遺伝子発現および発現制御といった遺伝子の動的な状況を把握することが分子生物学研究の中心に移ってきました。

生命の維持には、遺伝子を適切に mRNA* に転写してたんぱく質に翻訳する必要があります。この mRNA の量を個々に網羅的に計測する cDNA* マイクロアレイ等の手段が開発されています。従来これらの値は、ある対照となる状況に対する相対比率として計測されることから、異なる実験間の比較に困難が伴う場合がありました。NIHS毒性部は、より普遍的かつ容易に比較することができる値を得るための方法として「Percellome法」を開発しました。Percellome法は、サンプルの細胞数に対して mRNA量を標準化し、細胞 1個当たりの mRNA のコピー数(正の実数)を得ます。これにより、幾年にもわたり収集した実験データを自由に直接的に照合できる事になります。これは、各種の照合計算の組み合わせの数が急激に増大し、データ分析のシステムとして、今までの分析手法、分析プラットフォームを超えるものを必要とする段階に突入する事を意味しています。先ずは、1枚のマイクロアレイから得られる 4万5千情報同士の総当り計算とその結果のソーティングに始まり、複数の実験(1実験 48GeneChip®規模)からの結果をさらに加工するアルゴリズムが用意されました。

この Percellomeデータベースは、新しい安全性評価技術の基盤となるものであり、将来的には新規化学物質による未知の毒性にも対応するために幅広い生命反応を網羅しています。この巨大なデータベースを活用し、新しい毒性評価技術を開発し活用するためには、膨大な量のデータを効率良く処理しなくてはなりません。特に全遺伝子間の多対多関連性解析は非常に複雑で、これを計算処理するためには柔軟かつ高速なデータ処理システムが必要でした。

この時、既存のデータ分析ツールでは、分析用のデータを主記憶上に展開するため、主記憶容量の制約を受けます。そのため、展開不能なサイズのデータ解析の際には、その対象を容量に適合するまで絞り込む必要があります。つまり、データ解析の限界を前提に解析を行う必要が生じていました。また、1次解析の結果に基づいて研究者から提示される要望に応じたアルゴリズムの頻繁な変更に即時に対応する必要性があり、プログラムの最適化に要する時間を切り詰める必要もありました。このような様々な限界を打ち破るための ITプラットフォームが希求のものとなったのです。

ソリューション

プロジェクト開始当初、Percellome法で得られた絶対量の利点を活用する事の出来る解析アルゴリズムやアプリケーションソフトウエアがほとんど無かったため、これらを独自に開発することになりました。Teradata のデータマイニング・コンサルタントはこの研究開発において重要な役割を担い、いくつかの新規技術の構築にも深く関与しています。

一つの検体化合物につき 45,000レコード(倍精度)×48×検査対象臓器数(肝臓など平均約1.5臓器)のサイズのデータを 90化合物分蓄積し、それらのデータの一括計算に対する要求、解析アルゴリズムの研究進捗に伴う頻繁な解析プログラムの改変に対する要求、今後の蓄積データ量の増加が見込まれているという要求に見合う性能に対する要求、さらにプログラムのチューニングが事実上不要であるという特徴を考慮して、Teradata の導入が決定されました。物理ディスク 5TB という大容量のディスクを接続し、システムを構築しています。その上で遺伝子の実験結果データを蓄積し、自由に検索することを可能にしました。

テラデータは、毒性部の要望する「時間-用量応答パターン」の類似度に基づいた、総当り計算を必要とする解析に応えることが既存の分析手法では困難であると判断し、データベース上で実行する遺伝子の解析に向いたクラスタリング手法 "MADIC(Mass Distributed Clustering)" を共同開発しました。本アルゴリズムに関しては、国際会議 Genome Informatics Workshop において発表されており、論文はインターネット上で閲覧可能です。これは、Teradata の特性を利用してデータベース上で実行するため、これまでの様に主記憶の大きさに縛られること無く分析が可能になります。ほとんどのクラスタリングアルゴリズムでは類似度の計算と参照を何度も行いますが、Teradata に組み込んだこのアルゴリズムでは全遺伝子同士で応答パターンが類似しているかどうかの類似度数値をデータベース上に蓄積します。蓄積することで同じ遺伝子同士での計算が不要になります。また、Teradata Profiler* を導入することでデータの状況の把握などを効率化しています。

MADIC では 1遺伝子から構成されるクラスタも捨てず、むしろ重視する他、1つの遺伝子が複数のクラスタに所属することも許容し、5万個の遺伝子を自律的に 1000個程度のクラスタに分類するように調整されています。

さらに MADIC解析結果から、様々な化学物質によって引き起こされた毒性反応において、高頻度で同じクラスタに属する遺伝子群(同期発現遺伝子)の抽出も可能となりました。この情報は毒性反応の分子メカニズムを明らかにする上で極めて重要なリソースとなります。

導入効果

開発したデータマイニング・アルゴリズム "MADIC" を用いることにより、細かな遺伝子発現変動を基にした遺伝子クラスタリングが可能になりました。

NIHS毒性部では、遺伝子発現実験により得られたデータを Teradata に蓄積し、遺伝子レベルでの生体反応を解析しようと試みています。実験データのデータウェアハウスを活用することで、遺伝子と実験条件の様々な組み合わせの中から有意と思われる変化を選び出し、各種の比較演算を行い、遺伝子発現研究に役立てています。

これを網羅性をもって実行するためには、前もって検索の組合せを全て決めておくことはできません。研究者は、常にいろいろな角度から事象を見てみたいと考えています。研究が進んでいけば、最初に決めた方向と違う方向の解析研究が重要になってくることもあり、違う検索パターンに進むことも多くあります。そして、そのデータをさらに同一のデータウェアハウス上に蓄積、比較することで新たな発見につながることがあります。

今までのシステムは、データベースに遺伝子実験結果が蓄積されておらず、分析が必要になった時点で、分析対象となる実験結果を分析環境にロードしていました。コンピュータの性能の範囲内に収めるために、分析対象の絞込みから慎重に計画することが必要でした。場合によっては、分析環境にロードができない量となってしまうため、データ解析を諦めることもあったのですが、Teradata を導入することにより、諦めていた分析を行うことが可能になりました。

MADIC によるクラスタリング解析は、主要な遺伝子発現パターンを網羅すると同時に、数的には少数であっても特徴的な発現パターンを呈する遺伝子を洩らさず検出するため、見落としが許されない安全性評価において大いに役立っています。

共同研究で生成されたアルゴリズムやソフトウエアは、プロジェクト内部の研究活動だけでなく、国内外との共同研究においても活用されています。

また 2006年からは本プロジェクトの成果の一部をインターネット上で広く一般公開するための公開データベースサイトも Teradata RDBMSベースで安定稼働しています。

Teradata を採用した理由

前述のごとくNIHS毒性部では、他の DBMS も検討しました。データベース上で実行するクラスタリング・アルゴリズム("MADIC")は、SQL とシェルスクリプトで記述されています。つまり、標準的な SQL でコーディングされているので、どのような DBMS に移植することも可能でした。Oracle との比較を行ったところ、今後 1、2年間で想定されるデータ量であれば、Oracle を用いて実現することに問題はないという結論も導かれていました。しかし、データ量がますます増加すること、演算が複雑化すること、蓄積データ全体を常に参照する可能性が高いこと、アルゴリズム改変が研究者の要望で頻繁に繰り返されることなどの要件を総合的に考慮し、特にチューニングせずとも結果が得られるという特徴を重視して、Teradata が選択されました。実際に運用を開始してみると、担当したエンジニアの想定を超えた研究者からの多様な要望が提示され、仕様変更に対する柔軟性では、Oracle よりも Teradata の方が圧倒的に勝っていました。今後のトキシコゲノミクス研究の展開によっては、遺伝子単位から遺伝子内のエクソン単位のデータを扱うなど、データ取得の方法も改善され、現在以上の量からなるさらに複雑なデータが得られるようになる可能性があります。この様にデータが増えていく中で、研究者のデータ操作時間短縮のために、Teradataデータマイニング・コンサルタント能力の高さともども Teradata が有効に働いているとの評価を得ています。

*mRMA:mRNA の m は messenger でメッセンジャー(伝令)の意味。mRNA は DNA からコピーした遺伝情報を担っている。mRMA が細胞内で活動することで蛋白質の合成が行われている。
*cDNA:cDNAのcはComplementary で相補的DNA という意味。cDNA はタンパク質をコードする配列のみに整理された mRNA を鋳型にして人工的に作られた DNA。
*Teradata Profiler:標準偏差やヒストグラムなど、Teradata上の記述統計的分析を実行するための分析ツール。