RAMBO Mempercepat Pencarian di Basis Data DNA Besar

Ilmuwan komputer Rice University mengirim RAMBO untuk menyelamatkan peneliti genomik yang terkadang menunggu berhari-hari atau berminggu-minggu untuk hasil pencarian dari database DNA yang sangat besar.

Pengurutan DNA sangat populer, kumpulan data genomik bertambah dua kali lipat setiap dua tahun, dan alat untuk mencari data tidak mengimbanginya. Para peneliti yang membandingkan DNA di seluruh genom atau mempelajari evolusi organisme seperti virus yang menyebabkan COVID-19 sering menunggu berminggu-minggu hingga perangkat lunak mengindeks basis data “metagenomik” yang besar, yang semakin besar setiap bulan dan sekarang diukur dalam petabyte.

Gambar: www.harapanrakyat.com

RAMBO, yang merupakan kependekan dari “filter mekar yang berulang dan digabungkan,” adalah metode baru yang dapat memotong waktu pengindeksan untuk database tersebut dari minggu ke jam dan waktu pencarian dari jam ke detik. Ilmuwan komputer Rice University mempresentasikan RAMBO minggu lalu di konferensi ilmu data Association for Computing Machinery SIGMOD 2021.

“Meminta jutaan sekuens DNA terhadap database besar dengan pendekatan tradisional dapat memakan waktu beberapa jam pada cluster komputasi besar dan dapat memakan waktu beberapa minggu pada satu server,” kata co-creator RAMBO Todd Treangen, seorang ilmuwan komputer Rice yang labnya mengkhususkan diri dalam metagenomics. . “Mengurangi waktu pengindeksan basis data, selain waktu kueri, sangat penting karena ukuran basis data genom terus tumbuh dengan kecepatan yang luar biasa.”

Untuk mengatasi masalah tersebut, Treangen bekerja sama dengan ilmuwan komputer Rice Anshumali Shrivastava, yang berspesialisasi dalam menciptakan algoritme yang membuat data besar dan pembelajaran mesin lebih cepat dan lebih terukur, dan mahasiswa pascasarjana Gaurav Gupta dan Minghao Yan, penulis utama konferensi peer-review. kertas di RAMBO.

RAMBO menggunakan struktur data yang memiliki waktu kueri yang jauh lebih cepat daripada metode pengindeksan genom canggih serta keuntungan lain seperti kemudahan paralelisasi, tingkat negatif palsu nol, dan tingkat positif palsu rendah.

“Waktu pencarian RAMBO hingga 35 kali lebih cepat dari metode yang ada,” kata Gupta, mahasiswa doktoral teknik elektro dan komputer. Dalam percobaan menggunakan dataset genom mikroba 170-terabyte, Gupta mengatakan RAMBO mengurangi waktu pengindeksan dari “enam minggu pada cluster khusus yang canggih menjadi sembilan jam pada cluster komoditas bersama.”

Yan, seorang mahasiswa Ph.D dalam ilmu komputer, mengatakan, “Pada arsip besar ini, RAMBO dapat mencari urutan gen dalam beberapa milidetik, bahkan sub-milidetik menggunakan server standar 100 mesin.”

RAMBO meningkatkan kinerja filter Bloom, teknik pencarian berusia setengah abad yang telah diterapkan pada pencarian urutan genom di sejumlah penelitian sebelumnya. RAMBO meningkatkan metode filter Bloom sebelumnya untuk pencarian genom dengan menggunakan struktur data probabilistik yang dikenal sebagai sketsa hitungan menit yang “mengarah ke waktu kueri dan pertukaran memori yang lebih baik” daripada metode sebelumnya, dan “mengalahkan baseline saat ini dengan mencapai struktur data pengindeksan yang sangat kuat, memori rendah dan sangat cepat,” tulis para penulis dalam penelitian tersebut.

Gupta dan Yan mengatakan RAMBO memiliki potensi untuk mendemokratisasikan pencarian genomik dengan memungkinkan hampir semua laboratorium dengan cepat dan murah mencari arsip genomik besar dengan komputer yang tersedia.

“RAMBO dapat mengurangi waktu tunggu untuk banyak penyelidikan dalam bioinformatika, seperti mencari keberadaan SARS-CoV-2 dalam metagenom air limbah di seluruh dunia,” kata Yan. “RAMBO bisa menjadi alat dalam studi genomik kanker dan evolusi genom bakteri, misalnya.”

Shrivastava adalah profesor ilmu komputer dan Treangen adalah asisten profesor ilmu komputer.

Rekan penulis studi tambahan termasuk Benjamin Coleman, Bryce Kille, Leo Elworth dan Tharun Medini.

Penelitian ini didanai oleh National Science Foundation, Kantor Penelitian Ilmiah Angkatan Udara dan Kantor Penelitian Angkatan Laut.

Artikel yang Direkomendasikan