https://frosthead.com

Big Data Menjadi Lebih Besar karena IBM's Watson Meets the Encyclopedia of Life

Setelah 2.000 tahun, ensiklopedia utama kehidupan berada di puncak era baru yang didorong oleh data. Hibah dari National Science Foundation telah diberikan kepada The Encyclopedia of Life (EOL), IBM dan Institut Teknologi Georgia. Hibah akan memungkinkan sejumlah besar data untuk diproses dan diindeks silang dengan cara yang akan memungkinkan ilmu terobosan dilakukan.

Konten terkait

  • Sistem Cadangan Kelautan Baru yang Diusulkan Menawarkan Outlook Merah untuk Para Lobster dan Nelayan Lobster

Pada tahun 77 M, Pliny the Elder mulai menulis ensiklopedia pertama di dunia, Natural History. Itu mencakup segalanya, mulai dari astronomi, botani, zoologi, antropologi, dan banyak lagi. Pliny berusaha untuk menempatkan segala yang dia bisa kumpulkan secara pribadi tentang dunia alami ke dalam satu karya tertulis. Selama 2.000 tahun terakhir, suksesi panjang ilmuwan yang terinspirasi oleh Pliny telah mengejar visi yang sama.

Pliny memasukkan 20.000 topik dalam 36 volume, tetapi berlari ke dalam keterbatasan apa yang dapat ditemukan, direkam, dan diproses oleh satu orang dalam rentang hidup manusia. Dia meninggal selama letusan Gunung Vesuvius sebelum dia bisa menyelesaikan suntingan terakhir magnum opus-nya. Bahkan di zamannya sendiri, tidak mungkin bagi satu orang untuk membaca semua buku, mempelajari semua hal, dan menjelaskan semuanya kepada dunia.

Seperti yang ditemukan oleh para ilmuwan, editor, dan pustakawan di dunia yang menambah pengetahuan tertulis setiap tahun, bahkan jika Anda dapat menyimpan semua buku dan penelitian dunia dalam satu gedung, merupakan tantangan untuk membuat semua informasi yang relevan tersedia bagi peneliti selama keterbatasan kehidupan manusia mereka yang singkat.

EOL mungkin dapat mengubah itu dengan menerapkan kekuatan komputasi canggih untuk memisahkan koleksi data biologis. Proyek ini adalah kumpulan digital, fakta dan multimedia keanekaragaman hayati yang bebas dan terbuka, salah satu yang terbesar di dunia. Berkantor pusat di Smithsonian Institution dan dengan 357 mitra dan penyedia konten termasuk Universitas Harvard dan Perpustakaan Baru Alexandria di Mesir, EOL telah berkembang dari 30.000 halaman ketika diluncurkan pada 2008 menjadi lebih dari 2 juta, dengan 1, 3 juta halaman teks, peta, video, audio dan foto, dan mendukung 20 bahasa.

"Saya datang ke Smithsonian pada 2010 dari industri perangkat lunak, " kata direktur EOL Bob Corrigan. “Salah satu penemuan yang saya buat ketika datang ke sini adalah bahwa ketika TI ada di mana-mana, itu belum menembus dunia museum sama seperti menembus dunia komersial. Dalam biologi khususnya, data yang paling penting telah terkubur di buku pelajaran dan spreadsheet. "

Bagaimana data biologis dalam berbagai bentuk digabungkan dan ditambang untuk wawasan baru tentang kehidupan di Bumi? Bagaimana jika data tentang, katakanlah, keanekaragaman hayati kupu-kupu di Afrika lebih dari satu dekade dikombinasikan dengan data tentang praktik pertanian dan curah hujan? Bisakah sesuatu yang baru dipelajari? Dibutuhkan sesuatu yang lebih besar dari otak manusia untuk melakukan ini. Sesuatu seperti superkomputer IBM Watson.

"IBM berkontribusi upaya dan akses ke versi [Watson] yang tidak tersedia untuk umum, " kata Jennifer Hammock, direktur program di EOL. “Mereka juga akan membuat orang-orang mengerjakannya. IBM melakukan ini sebagai kontribusi dalam bentuk barang. "

Watson adalah superkomputer yang tidak hanya merusak angka dalam volume besar. Ini menggunakan kecerdasan buatan untuk memungkinkan pengguna untuk mengajukan pertanyaan dalam bahasa sederhana.

"Saya akan mengatakan dari sudut pandang pengguna, itu berarti bahwa database adalah sesuatu yang dapat Anda tuju dan ajukan pertanyaan seolah-olah Anda menginginkan manusia, " kata Hammock. "Seperti, bisakah kau memberitahuku jika kupu-kupu ungu ini terjadi di Afrika?"

"Menjawab pertanyaan sederhana dalam bahasa apa pun mengandaikan keberadaan banyak pengetahuan di balik layar, " kata Corrigan. “Bahkan [kata] ungu, itu mengasumsikan bahwa kita tahu apa itu ungu. Atau kupu-kupu, [komputer] harus memahami perbedaan antara kupu-kupu dan ngengat. Di atas ini, set data sendiri memiliki cara berpikir yang berbeda tentang istilah yang berbeda ini. Semua data ini sulit ditambang tanpa istilah Rosetta. Dan itu adalah bagian dari keajaiban yang dilakukan EOL. ”

Satu pertanyaan ilmiah yang ingin dipecahkan oleh kemitraan antara EOL, IBM dan Georgia Tech adalah paradoks dari plankton.

Menurut Hammock, para ilmuwan yang bekerja dengan simulasi komputer “mencoba memodelkan apa yang terjadi di lautan dengan mengatakan bahwa matahari bersinar dan ganggang tumbuh. . . ia memiliki semacam perkiraan kasar tetapi mereka tidak bisa membuat [model komputer ekosistem] menjadi stabil. Mereka pergi sebentar dan kemudian jatuh. Karena mereka terlalu sederhana. Mereka berharap bahwa jika mereka dapat menunjukkan sedikit lebih banyak keanekaragaman dalam model biosfer mereka, mereka akan menjadi lebih stabil. . . Paradoksnya adalah: bagaimana biosfer samudera ada? Kenapa tidak crash? ”

"Orang-orang duduk di data, " kata Corrigan. “Ada reservoir yang luar biasa dari pengukuran keanekaragaman hayati di seluruh planet ini. Saya mendapatkan banyak panggilan telepon dari orang-orang yang menggunakan data ini dan ingin membantu memasukkannya ke dalam konteks yang lebih luas. Ini penting karena kita berlomba untuk mempelajari planet ini dan belajar bagaimana perkembangan kita menekankan sumber daya kita yang sangat terbatas. . . Smithsonian dapat memainkan peran dalam peningkatan pengetahuan dari semua sumber ini dan menjadi kekuatan nyata untuk menyebarkannya. "

Seperempat dari hibah $ 1 juta akan diberikan kepada Smithsonian untuk bagian pekerjaannya, tetapi EOL mencakup banyak pemain lain. Beberapa pengembang berada di Mesir; sebuah tim pendidikan berbasis di Harvard; dan unit bahasa Spanyol di Mexico City.

Semua data EOL akan terus berada di domain publik atau dilisensikan di bawah Creative Commons. Penelitian dan data ini dimaksudkan agar dapat diakses publik dan tidak tersembunyi di balik paywall.

"Ini mimpi yang sangat lama, " kata Hammock. “Satu manusia mungkin tidak bisa mempelajari semuanya. Sulit untuk meletakkan segala sesuatu di satu tempat di mana ia dapat diperiksa secara sadar terhadap dirinya sendiri. Tetapi sekarang kami memiliki komputer. ”

Pliny akan sangat senang atau sangat cemburu.

Big Data Menjadi Lebih Besar karena IBM's Watson Meets the Encyclopedia of Life