Ketika Anda memikirkan kecerdasan buatan, bidang botani mungkin tidak menonjol dalam pikiran Anda. Ketika Anda membayangkan pengaturan untuk penelitian komputasi mutakhir, museum berusia seabad mungkin tidak berada di urutan teratas. Namun, artikel yang baru saja diterbitkan di Biodiversity Data Journal menunjukkan bahwa beberapa inovasi yang paling menarik dan luar biasa dalam pembelajaran mesin terjadi tidak lain adalah Herbarium Nasional Museum Nasional Sejarah Alam di Washington, DC.
Makalah ini, yang menunjukkan bahwa jaringan saraf digital mampu membedakan antara dua famili tanaman sejenis dengan tingkat akurasi lebih dari 90 persen, menyiratkan segala macam kemungkinan yang menggiurkan bagi para ilmuwan dan akademisi di masa mendatang. Studi ini bergantung pada perangkat lunak yang didasarkan pada algoritma "pembelajaran dalam", yang memungkinkan program komputer untuk menambah pengalaman dengan cara yang sama seperti yang dilakukan oleh pakar manusia, meningkatkan permainan mereka setiap kali dijalankan. Segera, teknologi ini dapat memungkinkan analisis komparatif jutaan spesimen berbeda dari seluruh penjuru dunia — sebuah proposisi yang sebelumnya akan menuntut jumlah tenaga kerja manusia yang tidak dapat dipertahankan.
"Arah penelitian ini menunjukkan banyak janji, " kata profesor Stanford Mark Algee-Hewitt, suara terkemuka dalam gerakan humaniora digital dan asisten direktur fakultas di Pusat Analisis Spasial dan Tekstual Universitas. “Metode-metode ini memiliki kemampuan untuk memberi kami banyak informasi tentang apa yang terkandung dalam koleksi, ” katanya, dan “dengan melakukan itu mereka membuat data ini dapat diakses.”
Temuan-temuan baru ini dibangun di atas kerja bertahun-tahun yang dilakukan di Smithsonian Institution untuk mendigitalkan koleksinya secara sistematis untuk akses akademik dan publik secara online, dan mewakili pertemuan pikiran lintas-disiplin yang luar biasa: ahli botani, pakar digitalisasi, dan ilmuwan data semuanya berperan dalam membawa ini hasil ke cahaya.
Kisah ini dimulai pada Oktober 2015, ketika pemasangan peralatan kamera dan konveyor di bawah Natural History Museum menyederhanakan upaya untuk mendigitalkan koleksi botani Smithsonian. Alih-alih harus memindai secara manual setiap bunga yang ditekan dan rumpun rumput dalam repositori mereka, pekerja sekarang dapat mengantri seluruh susunan sampel, biarkan ikat pinggang melakukan keajaibannya, dan mengambil dan membuat ulang katalog di ujung ekor. Tiga orang awak telah mengawasi sabuk sejak debutnya, dan mereka melewati sekitar 750.000 spesimen setiap tahun. Tidak lama kemudian, inventaris herbarium Smithsonian, lima juta spesimen kuat, akan sepenuhnya online.
Setiap spesimen ditandai dengan kartu identifikasi yang lengkap, yang memberikan informasi tentang asalnya serta data statistik penting. Isi dari kartu-kartu ini telah ditranskripsikan dan diunggah bersamaan dengan gambar-gambar digital, memberikan pandangan yang komprehensif dari setiap item dalam koleksi untuk mereka yang memiliki kecenderungan untuk mencari.

"Itu membuat koleksi kami dapat diakses oleh siapa saja yang memiliki komputer dan koneksi internet, " kata kursi museum botani Laurence Dorr, "yang bagus untuk menjawab pertanyaan tertentu." Meski begitu, Dorr menemukan bahwa dia tidak dapat menghilangkan perasaan tentang potensi yang belum dimanfaatkan. . Tentu, sejumlah besar data spesimen sekarang tersedia untuk komunitas online, tetapi menganalisisnya secara agregat tetap fantastis. Mencari spesimen tertentu dan kategori kecil spesimen cukup mudah, tetapi Dorr bertanya-tanya apakah ada cara untuk memanfaatkan data untuk menarik kesimpulan tentang ribuan spesimen. “Apa yang dapat Anda lakukan dengan data ini?” Kenangnya heran. Seorang pria bernama Adam Metallo segera memberikan jawaban yang meyakinkan.
Metallo, seorang perwira di Kantor Program Digitalisasi Smithsonian, telah menghadiri konferensi di mana raksasa teknologi NVIDIA — kesayangan gamer PC di mana-mana — memamerkan unit pemrosesan grafis atau GPU generasi berikutnya. Metallo ada di sana mencari cara untuk meningkatkan kemampuan rendering digital Smithsonian 3D, tetapi itu adalah nugget informasi yang sebagian besar tidak berhubungan yang menarik perhatiannya dan terjebak dengannya. Selain menghasilkan visual 3D yang dinamis dan berakurasi tinggi, katanya, GPU NVIDIA sangat cocok untuk analitik data besar. Secara khusus, GPU yang ditingkatkan adalah apa yang dibutuhkan untuk pengenalan pola digital yang intensif; banyak algoritma pembelajaran mesin telah dioptimalkan untuk platform NVIDIA.
Metallo langsung tertarik. Teknologi "pembelajaran dalam" ini, yang telah digunakan di sektor-sektor khusus seperti pengembangan mobil yang dapat dikendarai sendiri dan radiologi medis, memiliki potensi besar bagi dunia museum — yang, seperti yang ditunjukkan Metallo, merupakan “kumpulan data terbesar dan tertua yang sekarang kami akses. untuk."
"Apa artinya bagi kumpulan data besar yang kita buat di Smithsonian melalui digitalisasi?" Metallo ingin tahu. Pertanyaannya benar-benar mencerminkan pertanyaan Laurence Dorr, dan begitu keduanya terhubung, percikan mulai beterbangan. "Koleksi botani adalah salah satu koleksi terbesar yang kami kerjakan baru-baru ini, " kenang Metallo. Kolaborasi menyarankan dirinya sendiri.
Sementara banyak bentuk pembelajaran mesin menuntut para peneliti menandai penanda matematis kunci dalam gambar untuk dianalisis — suatu proses yang melelahkan yang sama dengan memegang tangan komputer — algoritma pembelajaran modern modern dapat mengajarkan diri mereka sendiri penanda mana yang harus dicari dalam pekerjaan, menghemat waktu dan membuka pintu untuk pertanyaan skala besar. Namun demikian, menulis program pembelajaran mendalam khusus Smithsonian dan mengkalibrasi untuk pertanyaan penelitian botani yang terpisah adalah bisnis yang rumit — Dorr dan Metallo membutuhkan bantuan para ilmuwan data untuk membuat visi mereka menjadi kenyataan.

Salah satu spesialis yang mereka bawa adalah ilmuwan data penelitian Smithsonian Paul Frandsen, yang segera mengakui potensi dalam menciptakan jaringan saraf yang didukung GPU NVIDIA untuk menghadirkan koleksi botani. Bagi Frandsen, proyek ini melambangkan langkah pertama yang penting di jalur yang indah dan belum dijelajahi. Segera, katanya, “kita akan mulai mencari pola morfologis dalam skala global, dan kita akan dapat menjawab pertanyaan-pertanyaan yang sangat besar ini yang secara tradisional akan membutuhkan ribuan atau jutaan jam manusia mencari melalui literatur dan mengklasifikasikan hal-hal. Kami akan dapat menggunakan algoritma untuk membantu kami menemukan pola-pola itu dan belajar lebih banyak tentang dunia. "
Temuan yang baru saja diterbitkan adalah bukti konsep yang mencolok. Dihasilkan oleh tim yang terdiri dari sembilan orang yang dipimpin oleh ahli botani Eric Schuettpelz dan ilmuwan data Paul Frandsen dan Rebecca Dikow, penelitian ini bertujuan untuk menjawab dua pertanyaan skala besar tentang pembelajaran mesin dan herbarium. Yang pertama adalah seberapa efektif jaringan saraf yang terlatih dalam menyortir spesimen bernoda merkuri dari spesimen yang tidak tercemar. Yang kedua, pokok dari makalah ini, adalah seberapa efektif jaringan semacam itu dalam membedakan anggota dari dua famili tanaman yang serupa - yaitu, sekutu pakis Lycopodiaceae dan Selaginellaceae .
Percobaan pertama mengharuskan tim untuk memeriksa ribuan spesimen sendiri terlebih dahulu, mencatat secara definitif mana yang terlihat terkontaminasi merkuri (sisa-sisa teknik pelestarian botani yang sudah ketinggalan zaman). Mereka ingin memastikan bahwa mereka tahu dengan kepastian 100 persen yang bernoda dan mana yang tidak — jika tidak, menilai keakuratan program tidak akan mungkin. Tim ini mengambil hampir 8.000 gambar sampel bersih dan 8.000 sampel bernoda untuk melatih dan menguji komputer. Pada saat mereka selesai mengubah parameter jaringan saraf dan menarik semua bantuan manusia, algoritma tersebut mengkategorikan spesimen yang belum pernah dilihat sebelumnya dengan akurasi 90 persen. Jika spesimen yang paling ambigu - misalnya, yang pewarnaannya minimal dan / atau sangat pudar - dibuang, angka itu naik menjadi 94 persen.
Hasil ini menyiratkan bahwa perangkat lunak pembelajaran dalam segera dapat membantu ahli botani dan ilmuwan lain menghindari membuang-buang waktu untuk tugas-tugas penyortiran yang membosankan. "Masalahnya bukanlah bahwa manusia tidak dapat menentukan apakah spesimen ternoda merkuri atau tidak, " Metallo menjelaskan, melainkan bahwa "sulit untuk memilah secara manual dan mencari tahu di mana kontaminasi itu ada, " dan tidak masuk akal untuk melakukannya dari sudut pandang manajemen waktu. Untungnya, pembelajaran mesin dapat mengubah waktu utama menjadi paling cepat beberapa hari analisis otomatis yang cepat.

Bagian diskriminasi spesies dari penelitian ini bahkan lebih menarik. Para peneliti melatih dan menguji jaringan saraf dengan sekitar 9.300 clubmoss dan 9.100 sampel spikemoss. Seperti halnya eksperimen pewarnaan, sekitar 70 persen dari sampel ini digunakan untuk kalibrasi awal, 20 persen digunakan untuk penyempurnaan, dan 10 persen terakhir digunakan untuk menilai akurasi secara formal. Setelah kode dioptimalkan, tingkat keberhasilan komputer dalam membedakan antara dua keluarga adalah 96 persen — dan hampir sempurna 99 persen jika sampel paling sulit dihilangkan.
Suatu hari, Frandsen berspekulasi, program seperti ini dapat menangani kategorisasi spesimen awal di museum di seluruh dunia. “Saya pikir algoritma ini tidak akan melakukan apa pun untuk menggantikan kurator, ” ia cepat mencatat, “tetapi sebaliknya, saya pikir mereka dapat membantu kurator dan orang-orang yang terlibat dalam sistematika agar lebih produktif, sehingga mereka dapat melakukan pekerjaan mereka lebih banyak lebih cepat."
Keberhasilan jaringan saraf dalam penelitian ini juga membuka jalan bagi pengujian cepat hipotesis ilmiah di seluruh koleksi besar. Dorr melihat dalam temuan tim kemungkinan melakukan perbandingan morfologis luas sampel digital — perbandingan yang dapat mengarah pada terobosan ilmiah yang signifikan.
Ini bukan untuk mengatakan bahwa pembelajaran yang mendalam akan menjadi peluru perak dalam penelitian di seluruh papan. Mark Algee-Hewitt dari Stanford menunjukkan bahwa "hampir mustahil untuk merekonstruksi mengapa dan bagaimana jaringan saraf membuat keputusannya" begitu dikondisikan; tekad yang tersisa untuk program komputer harus selalu tidak rumit dan dapat diverifikasi secara alami jika ingin dipercaya.
"Jelas, " kata Dorr, program komputer otonom "tidak akan menguji untuk hubungan genetik, hal-hal seperti itu" - setidaknya kapan saja dalam waktu dekat. “Tapi kita bisa mulai belajar tentang distribusi karakteristik berdasarkan wilayah geografis, atau dengan satuan taksonomi. Dan itu akan menjadi sangat kuat. "
Lebih dari segalanya, penelitian ini adalah titik awal. Jelas sekarang bahwa teknologi pembelajaran yang dalam memegang janji besar bagi para ilmuwan dan akademisi lain di seluruh dunia, serta masyarakat yang ingin tahu di mana mereka menghasilkan pengetahuan. Yang tersisa adalah pekerjaan tindak lanjut yang ketat.
“Ini adalah langkah kecil, ” kata Frandsen, “tetapi ini adalah langkah yang benar-benar memberi tahu kita bahwa teknik ini dapat bekerja pada spesimen museum digital. Kami senang menyiapkan beberapa proyek lagi dalam beberapa bulan ke depan, untuk mencoba menguji batasnya sedikit lebih. "