Pada tahun 2008, Google mengumumkan layanan baru yang menarik yang disebut Google Pantau Flu Dunia. Insinyur di perusahaan telah mengamati bahwa permintaan pencarian tertentu (seperti yang termasuk kata "demam" atau batuk) tampaknya melonjak setiap musim flu. Gagasan mereka adalah menggunakan frekuensi pencarian ini untuk menghitung tingkat flu nasional secara lebih cepat daripada yang bisa dilakukan. dilakukan dengan data konvensional (yang biasanya membutuhkan beberapa minggu untuk mengumpulkan dan menganalisis), membiarkan orang tahu kapan harus mengambil tindakan pencegahan ekstra untuk menghindari terkena virus.
Konten terkait
- Bagaimana Model Cuaca dan Google Dapat Membantu Prakiraan Musim Flu
- Big Data atau Terlalu Banyak Informasi?
Outlet media (termasuk reporter ini) bergegas memberi selamat kepada Google atas penggunaan data besar yang penuh wawasan, inovatif, dan mengganggu. Satu-satunya masalah? Google Pantau Flu Dunia belum menunjukkan kinerja yang sangat baik.
Layanan ini secara konsisten melebih-lebihkan tingkat flu, jika dibandingkan dengan data konvensional yang dikumpulkan setelahnya oleh CDC, memperkirakan insiden flu menjadi lebih tinggi daripada yang sebenarnya untuk 100 dari 108 minggu antara Agustus 2011 dan September 2013. Pada Januari 2013, ketika tingkat flu memuncak tetapi perkiraan Google Pantau Flu Dunia dua kali lebih tinggi dari data sebenarnya, ketidaktepatannya akhirnya mulai mengumpulkan liputan pers.
Penjelasan paling umum untuk perbedaan ini adalah bahwa Google belum memperhitungkan kenaikan permintaan terkait flu yang terjadi sebagai akibat dari histeria flu berbasis media yang terjadi setiap musim dingin. Namun minggu ini di Science, sekelompok ilmuwan sosial yang dipimpin oleh David Lazer mengusulkan penjelasan alternatif: bahwa Google sendiri yang harus menyesuaikan dengan algoritma pencariannya yang patut disalahkan.
Memang sulit bagi orang luar untuk menganalisis Google Pantau Flu Dunia, karena perusahaan tidak mempublikasikan istilah pencarian spesifik yang digunakannya sebagai data mentah, atau algoritma tertentu yang digunakannya untuk mengubah frekuensi istilah-istilah ini menjadi penilaian flu. Tetapi para peneliti melakukan yang terbaik untuk menyimpulkan istilah dengan menggunakan Google Correlate, sebuah layanan yang memungkinkan Anda untuk melihat tingkat istilah pencarian tertentu dari waktu ke waktu.
Ketika para peneliti melakukan ini untuk berbagai pertanyaan terkait flu selama beberapa tahun terakhir, mereka menemukan bahwa beberapa pencarian kunci (yang untuk perawatan flu, dan mereka yang bertanya bagaimana membedakan flu dari dingin) dilacak lebih dekat dengan Google Flu Perkiraan tren dibandingkan dengan tingkat flu aktual, terutama ketika Google melebih-lebihkan prevalensi penyakitnya. Pencarian khusus ini, tampaknya, bisa menjadi bagian besar dari masalah ketidaktepatan.
Ada alasan bagus lain untuk curiga ini mungkin masalahnya. Pada tahun 2011, sebagai bagian dari salah satu tweak algoritma pencarian regulernya, Google mulai merekomendasikan istilah pencarian terkait untuk banyak pertanyaan (termasuk mendaftarkan pencarian untuk perawatan flu setelah seseorang mencari banyak istilah yang berhubungan dengan flu Google) dan pada 2012, perusahaan mulai menyediakan diagnosa potensial sebagai tanggapan terhadap gejala dalam pencarian (termasuk daftar "flu" dan "dingin" setelah pencarian yang menyertakan frasa "sakit tenggorokan, " misalnya, mungkin mendorong pengguna untuk mencari cara membedakan antara keduanya). Perubahan ini, menurut para peneliti, kemungkinan secara artifisial meningkatkan tingkat pencarian yang mereka identifikasi bertanggung jawab atas perkiraan berlebihan Google.
Tentu saja, jika hipotesis ini benar, itu tidak berarti Google Pantau Flu Dunia pasti akan mengalami ketidakakuratan, hanya saja perlu diperbarui untuk memperhitungkan perubahan konstan mesin pencari. Tetapi Lazer dan para peneliti lainnya berpendapat bahwa melacak flu dari data besar adalah masalah yang sangat sulit.
Sebagian besar dari istilah pencarian yang berkorelasi dengan data CDC pada tingkat flu, ternyata, disebabkan bukan oleh orang yang terkena flu, tetapi oleh faktor ketiga yang mempengaruhi pola pencarian dan transmisi flu: musim dingin. Faktanya, para pengembang Google Pantau Flu Dunia melaporkan menemukan istilah-istilah tertentu — yang terkait dengan bola basket sekolah menengah, misalnya — yang berkorelasi dengan tingkat flu dari waktu ke waktu tetapi jelas tidak ada hubungannya dengan virus.
Seiring waktu, insinyur Google secara manual menghapus banyak istilah yang berkorelasi dengan pencarian flu tetapi tidak ada hubungannya dengan flu, tetapi model mereka jelas masih terlalu bergantung pada tren pencarian musiman non-flu - bagian dari alasan mengapa Google Pantau Flu Dunia gagal mencerminkan Epidemi H1N1 2009, yang terjadi selama musim panas. Terutama dalam versi sebelumnya, Google Pantau Flu Dunia merupakan "pendeteksi flu bagian, pendeteksi musim dingin sebagian, " tulis para penulis makalah Science .
Tetapi semua ini bisa menjadi pelajaran untuk penggunaan data besar dalam proyek-proyek seperti Google Pantau Flu Dunia, dan bukan selembar tuduhan, kata para peneliti. Jika diperbarui dengan benar untuk memperhitungkan perubahan pada algoritma Google sendiri, dan dianalisis secara ketat untuk menghilangkan faktor musiman murni, itu bisa berguna dalam mendokumentasikan laju flu secara nasional — terutama ketika dikombinasikan dengan data konvensional.
Sebagai tes, para peneliti menciptakan model yang menggabungkan data Google Pantau Flu Dunia (yang pada dasarnya bersifat waktu nyata, tetapi berpotensi tidak akurat) dengan data CDC berusia dua minggu (yang bertanggal, karena membutuhkan waktu untuk mengumpulkan, tetapi masih bisa menjadi agak menunjukkan tingkat flu saat ini). Hibrida mereka cocok dengan data flu aktual dan aktual jauh lebih dekat daripada Google Flu Trends saja, dan menyajikan cara untuk mendapatkan informasi ini jauh lebih cepat daripada menunggu dua minggu untuk data konvensional.
"Analisis kami terhadap Google Flu menunjukkan bahwa hasil terbaik berasal dari menggabungkan informasi dan teknik dari kedua sumber, " Ryan Kennedy, seorang profesor ilmu politik dan penulis bersama Universitas Houston, mengatakan dalam sebuah pernyataan pers. "Daripada berbicara tentang 'revolusi data besar', kita harus mendiskusikan 'revolusi semua data'."