Menambang Genom

Larry Hunter baru saja pindah ke kantor barunya ketika seorang reporter berkunjung, jadi ruangan itu tidak memiliki pernak-pernik dan foto keluarga. Hunter, bagaimanapun, mulai membongkar buku-bukunya, dan mereka sudah mulai membentuk pola yang menarik. Roger Schank Memori Dinamis , gelar klasik dalam kecerdasan buatan, disimpan di sebelah Georg Schulz Prinsip Struktur Protein. Pembelajaran mesin diapit Onkogen . Kehidupan Buatan bersandar Informatika Medis .



Ditafsirkan dengan benar, pola di rak buku Hunter mengungkapkan tren terbaru dalam biologi, bidang yang sekarang diliputi oleh informasi sehingga semakin bergantung pada ilmuwan komputer seperti Hunter untuk memahami temuannya. Seorang ahli dalam cabang penelitian kecerdasan buatan yang dikenal sebagai pembelajaran mesin, di mana komputer diajarkan untuk mengenali pola-pola halus, Hunter baru-baru ini dipancing dari pos teoretis soliter di National Library of Medicine untuk mengepalai bagian statistik molekuler dan bioinformatika di National Library of Medicine. Cancer Institute (NCI)-sebuah kelompok yang dibentuk pada tahun 1997 untuk menggunakan pengetahuan matematika untuk menyaring bubur temuan biologis.

Dari mana semua data itu berasal? Jawaban sederhananya adalah bahwa itu terhapus dari Proyek Genom Manusia. Didorong oleh persaingan yang mengejutkan dari sektor komersial, upaya yang didanai publik untuk membuat katalog sekitar 100.000 gen manusia mendekati akhir; beberapa pusat akademik besar bertujuan untuk menyelesaikan draft kasar pada musim semi berikutnya. Pada saat itu, mereka akan membuang puluhan miliar bit data ke dalam repositori urutan gen online yang dikenal sebagai GenBank, yang dikelola oleh Pusat Informasi Bioteknologi Nasional (NCBI) di Institut Kesehatan Nasional (NIH) di Bethesda, Md. Dan Urutan DNA bukan satu-satunya jenis data yang meningkat. Dengan menggunakan chip DNA, para ilmuwan sekarang dapat mendeteksi pola saat ribuan gen dihidupkan dan dimatikan dalam sel hidup, menambah banyak temuan.





Jenis data baru tersedia dengan kecepatan yang luar biasa, puji Nat Goodman, direktur informatika ilmu kehidupan di Compaq Computer. Compaq adalah salah satu dari banyak perusahaan yang mencari peluang komersial penting dalam bioinformatika. Kongres komputer dan biologi ini adalah bisnis yang berkembang pesat, tetapi sejauh ini sebagian besar berkisar seputar perangkat lunak untuk menghasilkan dan mengelola segunung data gen. Sekarang, perusahaan farmasi membutuhkan cara yang lebih cepat untuk menambang gunung itu untuk penemuan yang akan mengarah pada pengobatan baru untuk penyakit.

Di situlah peneliti kewirausahaan seperti Larry Hunter masuk. Di rak buku Hunter ada bacaan perhiasan kaca: .000.000 Seri A Lebih disukai. 5 Maret 1999-perayaan dana modal ventura yang dikumpulkan oleh Molecular Mining, sebuah perusahaan yang ia dirikan bersama. Perusahaan, yang berbasis di Kingston, Ontario, berharap untuk menggunakan metode penambangan data untuk membantu perusahaan farmasi mempercepat pengembangan obat baru dengan mengidentifikasi pola biologis utama dalam sel hidup-seperti gen mana yang dihidupkan pada tumor yang sangat berbahaya dan obat mana yang tumor akan merespon. Dan selusin perusahaan rintisan lainnya—indikator tren terbaik industri biotek—telah dibentuk untuk membuat alat penambangan data (lihat The Genome Miners). Biologi, Hunter memprediksi, akan semakin didukung oleh algoritme yang dapat menemukan struktur tersembunyi dalam sejumlah besar data molekuler. Jenis pekerjaan penambangan data ini, yang menjadi spesialisasi Hunter, sering dikenal sebagai pengenalan pola dan ini adalah salah satu area yang bergerak paling cepat dalam bioinformatika. Memang, jika Hunter benar, pengenalan pola mungkin menjadi pilihan yang menghasilkan emas terapi baru.

Penambang Genom



Contoh perusahaan yang berspesialisasi dalam perangkat lunak pengenalan pola.

Perusahaan Lokasi Menyorot Bioreason
(pribadi) Santa Fe, N.M. Perangkat lunak kecerdasan buatan memahami data kimia. Compugen
(swasta) Tel Aviv, Israel Mantan kontraktor pertahanan Israel mendapat nilai besar dalam penambangan data genetik. Pelanggan termasuk Kantor Paten AS. IBM
(publik) Armonk, N.Y. Algoritme pengenalan pola tingkat lanjut mendukung aliansi Monsanto 1997 untuk penemuan protein. Singa Biosains
(swasta) Heidelberg, Jerman Pakta 0 juta dengan raksasa obat Bayer membuat rekor bioinformatika. Penambangan Molekuler
(swasta) Kingston, Ontario Menggalang dana awal sebesar juta dari pemodal ventura pada bulan Maret. neomorfik
(swasta) Berkeley, California Model Markov Tersembunyi adalah salah satu alat penemuan gen canggih dari startup tahun 1996 ini. Partek
(swasta) St. Peters, Mo. Spesialis jaringan saraf pindah ke pasar biologi pada tahun 1998. Genetika Silikon
(swasta) San Carlos, California spin-off Stanford menambang data gen untuk keuntungan. Grafis silikon
(publik) Mountain View, Calif. Mine Set Alat penambangan data visual populer di industri keuangan, telekomunikasi, dan obat-obatan.

Pertama Anda Harus Menemukan Mereka

kehidupan di alam semesta kita

Untuk mengetahui seberapa besar terowongan yang digali oleh Pemburu gunung dan rekan-rekannya, pertimbangkan fakta bahwa setiap sel manusia memiliki 23 pasang kromosom yang mengandung sekitar 3,5 miliar pasang nukleotida, huruf kimia A, C, G dan T yang menyusun kode genetik DNA. Tapi gen sebenarnya yang membawa kode untuk membuat protein, dan salah dalam penyakit genetik dan kanker, menempati kurang dari 3 persen genom; sisanya adalah kebisingan genetik. Membuat gen masih lebih sulit untuk digali adalah kenyataan bahwa elemen penyandi proteinnya tersebar, seperti sinyal genetik yang digunakan sel untuk menyatukannya kembali dan memandu ekspresinya: proses yang mengaktifkannya untuk membuat protein. Kunci untuk memahami genom adalah memahami bahasa sinyal ini, kata David Haussler, ahli biologi komputasi terkemuka di University of California di Santa Cruz. Tapi mereka tersembunyi, dan mereka berisik.



Masalah penting pertama adalah mengekstraknya dari labirin kode yang tidak relevan ini. Di Laboratorium Nasional Oak Ridge, Bagian Biosains Komputasi Edward Uberbacher telah menangani masalah pencarian gen dengan jaringan saraf tiruan - sejenis program kecerdasan buatan (AI) yang dibedakan oleh kapasitasnya untuk belajar dari pengalaman. Di Oak Ridge, jaring saraf telah digunakan untuk pekerjaan seperti mengenali tank musuh dalam citra satelit kabur; pada tahun 1991, Uberbacher mengadaptasi metode ini untuk membuat program, yang disebut GRAIL, yang dapat memilih gen. Sejak itu, GRAIL telah bergabung dengan setidaknya selusin program pencarian gen lainnya, banyak di antaranya tersedia untuk peneliti online.

bisakah kita pergi ke jupiter?

Program penempatan gen saat ini jauh dari sempurna, terkadang memprediksi gen yang tidak nyata dan sering kali melewatkan gen yang ada. Sebagian karena masalah akurasi, kata Uberbacher, metode ini telah dipinggirkan untuk sementara waktu. Tetapi mengingat banjir data genom yang semakin cepat, para ahli biologi akan dipaksa untuk mengandalkan dan memperbaikinya. Meski tidak sempurna, mereka adalah tempat terbaik untuk memulai, kata Lisa Brooks, direktur program cabang informatika genome National Human Genome Research Institute, yang operasinya menghasilkan juta per tahun untuk mendukung database bioinformatika dan untuk mengembangkan metode penambangan data baru. .

Program pengenalan pola tidak hanya digunakan untuk menemukan gen; mereka juga sangat dieksploitasi untuk memberikan petunjuk kepada peneliti tentang apa yang dilakukan gen. Saat ini, program yang paling banyak digunakan—Basic Local Alignment Search Tool, atau BLAST, NCBI—menerima 50.000 hit per hari dari para peneliti yang mencari kesamaan antara sekuens DNA yang baru ditemukan dan yang perannya sudah dipahami. Mengingat urutan yang sama, para ilmuwan sering dapat menyimpulkan bahwa dua gen memiliki fungsi yang serupa.

Dalam researchspeak, proses menafsirkan fungsi gen dan memasukkannya ke dalam database disebut anotasi. Pada bulan Mei, Sanger Centre London dan European Bioinformatics Institute (EBI), cabang dari Laboratorium Biologi Molekuler Eropa multinasional di Hinxton, Inggris, mengumumkan proyek yang diorganisir dengan tergesa-gesa yang dikenal sebagai EnsEMBL. Tujuan EnsEMBL, kata Alan Robinson dari EBI, adalah untuk memastikan draf pertama genom manusia akan memiliki anotasi yang dilampirkan. Kegiatan pertama EnsEMBL adalah mengirimkan algoritme pencarian gen untuk menjelajahi genom dan mengembalikan gambaran kasar tentang di mana gen tersebut berada—peta yang digambar tangan oleh seorang penambang. Dengan peta yang digambar, EnsEMBL akan menggunakan alat seperti BLAST untuk menebak fungsi gen.

Rencana untuk jalur penemuan terkomputerisasi seperti ini penting bagi perusahaan farmasi, yang berlomba untuk mengidentifikasi dan mematenkan gen penyebab penyakit. Pada bulan Juni, misalnya, raksasa obat Jerman Bayer setuju untuk membayar startup Heidelberg, Lion Bioscience, sebanyak 0 juta untuk sistem otomatis untuk menambang database genetik. Lion telah menjuluki pendekatan komputerisasi i-biologi, menurut kepala bioinformatika Reinhard Schneider, dan menjanjikan Bayer bahwa dalam lima tahun komputernya akan menemukan 500 gen baru, serta menjelaskan 70 gen yang telah ditemukan Bayer. Algoritme pengenalan pola, yang akan mendorong penelusuran basis data setiap hari, merupakan inti dari i-biology.

Meskipun pakta Bayer-Lion adalah pemecah rekor, itu hanya satu di antara lusinan aliansi penambangan data antara raksasa farmasi dan perusahaan rintisan yang cerdas secara komputasi - bukti bahwa metode matematika menjadi pusat perhatian dalam penelitian genom. Dan para akademisi yang menulis algoritme juga menemukan bintang mereka meningkat, terutama di industri. Lion didirikan oleh bio-infonaut terkemuka dari Laboratorium Biologi Molekuler Eropa, yang berkantor pusat di Heidelberg. Di Celera Genomics, the Rockville, Md., perusahaan yang rencananya untuk menguraikan kode genetik telah mengguncang Proyek Genom Manusia dan mempercepat pekerjaan yang didanai publik, keberhasilan menunggangi keahlian pakar analisis pola Eugene Myers. Celera memikat Myers dari posisi tetap di University of Arizona untuk memimpin upaya informatikanya, mempekerjakan Compaq untuk membangun apa yang disebut-sebut sebagai superkomputer sipil paling kuat di dunia (lihat The Gene Factory, TR Maret/April 1999). Menurut Haussler, sebagian besar ilmuwan berpikir keberhasilan metode Myers akan membuat atau menghancurkan Celera.

Pengkategori Kanker

Meski penting, mengidentifikasi dan membandingkan gen untuk petunjuk fungsi hanyalah langkah pertama dalam perjalanan panjang menuju relevansi medis—pengembangan obat bisa memakan waktu bertahun-tahun lebih lama. Tetapi ilmuwan komputasi mengatakan penambangan pola bisa memiliki hasil jangka pendek yang jauh lebih dekat ketika diterapkan pada jenis data genomik lain yang dikenal sebagai profil ekspresi gen.

Tingkat ekspresi gen mengacu pada berapa banyak salinan protein spesifiknya yang diminta untuk dibuat pada waktu tertentu. Protein adalah pekerja keras yang sebenarnya di dalam sel, melakukan tugas metabolisme sehari-hari; tingkat masing-masing dapat bervariasi secara dramatis dari waktu ke waktu, dan sering keluar dari keteraturan dalam sel yang sakit. Berkat perangkat yang dikenal sebagai DNA microarrays, atau, lebih akrab, chip DNA, para ilmuwan sekarang untuk pertama kalinya secara teratur mengukur tingkat ekspresi ribuan gen sekaligus. Chip DNA memanfaatkan fakta bahwa untuk membuat protein, sel pertama-tama menerjemahkan gen menjadi banyak salinan molekul yang disebut messenger RNA (mRNA). Jenis dan kuantitas mRNA dalam sel sesuai dengan urutan protein—dan dengan mengukur tingkat ribuan mRNA yang berbeda sekaligus, chip DNA mampu membuat potret aktivitas ribuan gen.

Mark Buguski, peneliti senior di NCBI, mengatakan data baru tentang tingkat ekspresi gen tidak seperti apa pun yang pernah diekspos oleh ahli biologi. Sebelumnya, ahli biologi hanya bisa menganalisis aktivitas beberapa gen pada satu waktu. Sekarang, chip DNA dapat menghasilkan pembacaan paralel yang masif dari aktivitas seluler. Itu kemajuan penting, karena perbedaan antara kesehatan dan penyakit biasanya tidak terletak pada aktivitas gen tunggal tetapi pada pola ekspresi gen secara keseluruhan.

Sebuah tim di Whitehead/MIT Center for Genome Research menempatkan pembacaan paralel besar-besaran ini untuk bekerja mengidentifikasi perbedaan antara kanker yang berbeda. Dikenal sebagai kelompok Pengenalan Pola Molekuler, dimulai tahun lalu oleh direktur pusat genom Eric Lander dan dipimpin oleh ahli biologi molekuler Todd Golub. Anggota lainnya termasuk mantan ahli matematika IBM Jill Mesirov, ilmuwan komputer Donna Slonim, dan fisikawan komputasi Pablo Tamayo, yang bergabung dengan Whitehead dari perusahaan superkomputer Thinking Machines.

Kepercayaan otak interdisipliner ini mencoba memecahkan masalah yang sangat penting dalam pengenalan pola. Tumor bervariasi dengan cara yang halus, dan sel kanker yang terlihat sama di bawah mikroskop merespons obat dengan sangat berbeda. Hal-hal yang kami sebut satu jenis kanker pasti banyak jenis kanker, kata Lander, tetapi kami tidak tahu [perbedaan] apa yang harus dicari.

Untuk memberikan patokan bagi metode baru, kelompok Lander memulai dengan dua jenis leukemia yang sudah dapat dibedakan di bawah mikroskop: leukemia myeloid akut (AML) dan leukemia limfoid akut (ALL). Mereka mengukur tingkat sekitar 6.800 gen yang berbeda dalam sampel sumsum tulang dari 38 pasien leukemia, yang akan mereka gali untuk pola yang dapat membedakan AML dari ALL. Tetapi bekerja dengan 6.800 parameter (gen) dan hanya 38 titik data (sampel) yang dibuat untuk tugas yang mirip dengan mencoba meramalkan pemilihan dengan mensurvei selusin orang. Setelah menghabiskan persediaan pensil dan kertas gores selama satu tahun, mereka menemukan solusi.

Langkah kuncinya adalah memasukkan titik data ke dalam algoritma pembelajaran yang dikenal sebagai peta yang mengatur sendiri. Dengan memplot 38 sampel ke dalam ruang matematika berdimensi tinggi, algoritme peta dapat membagi sampel menjadi dua kelompok—satu untuk setiap jenis kanker. Memeriksa informasi tentang jenis tumor yang diketahui, kata Lander, menjadi jelas bahwa cluster memecahkan sampel ALL dan AML hampir sempurna. Kami menunjukkan bahwa jika Anda tidak mengetahui perbedaan antara kedua jenis leukemia ini - yang sebenarnya membutuhkan waktu 40 tahun untuk menetapkannya - Anda akan dapat merangkumnya dalam satu sore, katanya.

Tim peneliti juga mendapat firasat betapa berharganya metode mereka (masih belum dipublikasikan saat TR terbit) bagi pasien. Pada satu titik, algoritme gagal mengkategorikan sampel ke dalam salah satu kategori leukemia. Apakah matematika itu salah? Tidak-diagnosisnya adalah. Didorong oleh hasil program, dokter melihat lagi dan menemukan apa yang mereka yakini sebagai leukemia sebenarnya adalah kanker otot yang sangat ganas, yang pasiennya sekarang sedang dirawat. Di Cambridge, Millennium Pharmaceuticals yang berbasis di Mass., para peneliti bertaruh bahwa pendekatan serupa akan mengarah pada tes diagnostik yang optimal untuk kanker, menurut Dave Ficenec, mantan astrofisikawan yang disewa oleh Millennium untuk menginstal algoritme data-mining terbaru dalam perangkat lunak internalnya. Perusahaan bekerja sama erat dengan Lander's center-Lander adalah salah satu pendiri Milenium yang duduk di dewan direksi perusahaan.

Metode paralel baru untuk membuat snapshot ekspresi gen juga digunakan untuk mengevaluasi kandidat obat baru. Di startup Rosetta Inpharmatics di Kirkland, Wash., tim ilmiah sedang mengumpulkan dan menambang basis data untuk pola gen guna mempercepat penemuan obat. Rosetta mempelajari sel ragi, memaparkannya pada obat baru yang potensial dan kemudian menganalisis tingkat ekspresi gen untuk petunjuk tindakan obat. Misalnya, sel-sel dapat diperiksa dengan cepat untuk melihat apakah responsnya cocok dengan pola khas efek samping toksik. Membuang pecundang seperti itu sejak dini adalah bagian dari program Rosetta untuk meningkatkan efisiensi penemuan obat, kata Stephen Friend, yang merangkap sebagai chief science officer Rosetta dan kepala program farmakologi molekuler di Fred Hutchinson Cancer Research Center di Seattle. Perusahaan obat telah memperhatikan, dengan delapan mendaftar sebagai mitra Rosetta.

menguras otak

Sementara para peneliti di perusahaan dan universitas melompat pada kereta musik penambangan data, mereka kemungkinan akan menghadapi banyak rintangan di masa depan. Beberapa investor, misalnya, tetap khawatir bahwa database dari hasil biologis yang berbeda masih saling berhubungan dengan buruk, dan terkadang kualitasnya tidak merata. Kata Larry Bock, seorang investor di kantor Palo Alto dari firma ventura CW Group: Mungkin agak terlalu dini untuk penambangan data, karena kemampuan Anda untuk menambang secara langsung berkaitan dengan kualitas basis data. Namun, kata Barbara Dalton, wakil presiden di perusahaan ventura SR One di West Conshohocken, Pa., prospek jangka panjangnya terlihat bagus. SR One, bersama dengan Princeton, N.J.'s Cardinal Health Partners, mengumpulkan juta untuk membiayai startup Larry Hunter, Molecular Mining. Penambangan data akan menjadi bagian inti dari penemuan obat, Dalton memprediksi.

bagaimana robot belajar melakukan sesuatu

Tetapi sebelum itu terjadi, bidang ini mungkin harus memecahkan hambatannya yang paling serius: kekurangan mentor yang akut. Bioinformatika telah berkembang pesat selama tahun 1990-an, menarik banyak guru dan peneliti universitas terbaik ke sektor swasta bergaji tinggi. Kami beralih dari minat yang sangat kecil pada bioinformatika, menjadi-Bang!-memiliki sebagian besar orang yang bekerja di perusahaan, kata Mark Adams, yang meninggalkan jalur akademis untuk bekerja di Cambridge, Mass., perusahaan biotek Variagenics. Dengan universitas-universitas yang kehabisan akal cerdas mereka, banyak yang bertanya-tanya siapa yang akan melatih generasi berikutnya dari ahli biologi komputasi.

Sebagian dari jawabannya datang pada bulan Juni, ketika panel penasihat khusus yang diadakan oleh direktur NIH Harold Varmus menyimpulkan bahwa pemerintah AS harus menghabiskan sebanyak juta untuk mendanai 20 program keunggulan baru dalam komputasi biomedis. Beberapa universitas juga terlibat, termasuk Johns Hopkins, di mana program biologi komputasi baru sedang berlangsung, berkat hibah ,5 juta dari Burroughs Wellcome Fund. Stanford, Princeton, dan University of Chicago semuanya merencanakan pusat-pusat utama yang akan mempertemukan ilmuwan fisika dengan ahli biologi.

Di industri, konvergensi sudah menjadi kenyataan. Sepertiga dari 100 karyawan Rosetta Inpharmatics adalah ilmuwan komputasi, yang berasal dari berbagai bidang seperti deteksi sonar, kontrol lalu lintas udara, dan astrofisika. Kepala ilmuwan Stephen Friend mengatakan dia telah mencapai realisasi penting sejak bergabung dengan perusahaan pada tahun 1997. Ahli biologi mungkin masih mengajukan pertanyaan terbaik dan merancang eksperimen yang paling menarik, katanya, tetapi jawaban terbaik datang dari fisikawan atau matematikawan. Jawaban-jawaban itu kemungkinan akan mengarah pada terapi baru yang penting—emas yang diekstraksi dari pegunungan Proyek Genom Manusia dengan alat pengenalan pola.

bersembunyi

Teknologi Aktual

Kategori

Tidak Dikategorikan

Teknologi

Bioteknologi

Kebijakan Teknologi

Perubahan Iklim

Manusia Dan Teknologi

Bukit Silikon

Komputasi

Majalah Berita Mit

Kecerdasan Buatan

Ruang Angkasa

Kota Pintar

Blockchain

Cerita Fitur

Profil Alumni

Koneksi Alumni

Fitur Berita Mit

1865

Pandangan Ku

77 Jalan Massal

Temui Penulisnya

Profil Dalam Kemurahan Hati

Terlihat Di Kampus

Surat Alumni

Berita

Pemilu 2020

Dengan Indeks

Di Bawah Kubah

Pemadam Kebakaran

Cerita Tak Terbatas

Proyek Teknologi Pandemi

Dari Presiden

Sampul Cerita

Galeri Foto

Direkomendasikan