https://frosthead.com

Bisakah Model Statistik Memprediksi Prediksi Medali Olimpiade Secara Akurat?

Jika seseorang meminta Anda untuk memprediksi jumlah medali yang akan dimenangkan masing-masing negara di Olimpiade tahun ini, Anda mungkin akan mencoba mengidentifikasi atlet yang disukai dalam setiap pertandingan, lalu totalkan kemenangan yang diharapkan setiap negara untuk mencapai hasil.

Tim dan Dan Graettinger, saudara-saudara di belakang perusahaan tambang data Discovery Corps, Inc., memiliki pendekatan yang agak berbeda. Mereka mengabaikan atlet sepenuhnya.

Sebaliknya, model mereka untuk permainan Sochi melihat area geografis masing-masing negara, PDB per kapita, nilai total ekspor dan garis lintang untuk menentukan berapa banyak medali yang akan dimenangkan masing-masing negara. Jika Anda bertanya-tanya, itu memprediksi AS akan keluar di atas, dengan total 29 medali.

The Graettingers bukan yang pertama menggunakan jenis data-driven, pendekatan top-down ini untuk memprediksi jumlah medali. Daniel Johnson, seorang profesor ekonomi Colorado College, membangun model serupa untuk lima Olimpiade antara 2000 dan 2008 — mencapai akurasi 94 persen secara keseluruhan dalam memprediksi jumlah medali masing-masing negara — tetapi tidak membuat model untuk Sochi.

Dan dan Tim lebih baru dalam game. Dan — yang biasanya bekerja pada proyek penambangan data yang lebih konvensional, misalnya memprediksi pelanggan potensial perusahaan — pertama kali tertarik menggunakan model untuk memprediksi kompetisi empat tahun lalu, selama Olimpiade Musim Dingin Vancouver. "Saya menggunakan data tentang masa lalu untuk memprediksi masa depan sepanjang waktu, " katanya. "Setiap malam, mereka menunjukkan jumlah medali di TV, dan aku mulai bertanya-tanya apakah kita bisa memperkirakannya."

Meskipun performa atlet individu dapat bervariasi tanpa terduga, ia beralasan, mungkin ada hubungan keseluruhan antara karakteristik dasar suatu negara (ukuran, iklim dan jumlah kekayaan, misalnya) dan jumlah medali yang kemungkinan akan dibawa pulang. Pendekatan semacam ini tidak akan bisa mengatakan pesaing mana yang mungkin memenangkan acara tertentu, tetapi dengan data yang cukup, mungkin bisa secara akurat memprediksi jumlah medali agregat untuk setiap negara.

Awalnya, ia dan saudaranya mulai bekerja mengembangkan model pendahuluan untuk pertandingan London 2012. Untuk memulai, mereka mengumpulkan berbagai jenis set data yang berbeda, mulai dari geografi suatu negara hingga sejarah, agama, kekayaan, dan struktur politiknya. Kemudian, mereka menggunakan analisis regresi dan metode pengumpulan data lainnya untuk melihat variabel mana yang memiliki hubungan paling dekat dengan data historis pada medali Olimpiade.

Mereka menemukan bahwa, untuk pertandingan musim panas, model yang memasukkan produk domestik bruto, populasi, garis lintang, dan kebebasan ekonomi keseluruhan (yang diukur dengan indeks Heritage Foundation) berkorelasi paling baik dengan jumlah medali masing-masing negara untuk dua Olimpiade musim panas sebelumnya (2004). dan 2008). Tetapi pada saat itu, model awal mereka hanya bisa memprediksi negara mana yang akan memenangkan dua atau lebih medali, bukan jumlah medali per negara.

Mereka memutuskan untuk memperbaikinya untuk permainan Sochi, tetapi tidak dapat mengandalkan model mereka sebelumnya, karena negara-negara yang sukses di musim dingin sangat berbeda dari musim panas. Model Sochi baru mereka menangani masalah prediksi jumlah medali dalam dua langkah. Karena sekitar 90 persen negara tidak pernah memenangkan medali Olimpiade Musim Dingin tunggal (tidak ada atlet Timur Tengah, Amerika Selatan, Afrika, atau Karibia yang pernah menang), ia pertama-tama memisahkan sepuluh persen yang kemungkinan akan menang setidaknya satu, kemudian memprediksi berapa banyak masing-masing akan menang.

"Beberapa tren cukup banyak seperti yang Anda harapkan — ketika populasi suatu negara bertambah, ada lebih banyak kemungkinan bahwa ia akan memenangkan medali, " kata Tim. "Namun, pada akhirnya, Anda memerlukan beberapa mesin statistik yang lebih kuat yang dapat menggiling banyak variabel dan memeringkatnya dalam hal yang paling prediktif."

Akhirnya, mereka menemukan beberapa variabel yang secara akurat memisahkan sembilan puluh persen dari negara-negara yang tidak memenangkan medali dari sepuluh persen yang kemungkinan akan menang: ini termasuk tingkat migrasi, jumlah dokter per kapita, garis lintang, produk domestik bruto dan apakah negara itu memiliki memenangkan medali di pertandingan musim panas sebelumnya (tidak ada negara yang pernah memenangkan medali musim dingin tanpa memenangkan satu musim panas sebelumnya, sebagian karena kumpulan pemenang musim panas jauh lebih besar daripada yang musim dingin). Dengan menjalankan model ini pada dua Olimpiade Musim Dingin yang lalu, model ini menentukan negara mana yang membawa pulang medali dengan akurasi 96, 5 persen.

Dengan 90 persen dari negara-negara dihilangkan, Graettingers menggunakan analisis regresi yang sama untuk membuat model yang meramalkan, secara surut, berapa banyak medali yang dimenangkan masing-masing negara. Analisis mereka menemukan bahwa daftar variabel yang sedikit berbeda paling cocok dengan data medali historis. Variabel-variabel ini bersama dengan prediksi untuk permainan Sochi ada di bawah:

Gambar 4-Predicted Medal Table 2 - with borders.png Prediksi model untuk permainan Sochi (Graph courtesy Discovery Corps, Inc.)

Beberapa variabel yang ternyata korelatif bukanlah kejutan besar — ​​masuk akal bahwa negara-negara dengan garis lintang lebih tinggi lebih baik dalam acara-acara yang dimainkan selama pertandingan musim dingin — tetapi beberapa lebih mengejutkan.

"Kami pikir populasi, bukan area tanah, akan menjadi penting, " kata Dan. Mereka tidak yakin mengapa wilayah geografis lebih cocok dengan data historis, tetapi mungkin karena beberapa negara populasi tinggi yang tidak memenangkan medali musim dingin (seperti India dan Brasil) membuang data. Dengan menggunakan lahan sebagai gantinya, model ini menghindari pengaruh negara-negara ini yang terlalu besar, tetapi masih mempertahankan hubungan yang kasar dengan populasi, karena secara keseluruhan, negara-negara dengan wilayah yang lebih besar memiliki populasi yang lebih besar.

Tentu saja, modelnya tidak sempurna, bahkan dalam mencocokkan data historis. "Pendekatan kami adalah pendekatan 30.000 kaki. Ada beberapa variabel yang tidak dapat kami pertanggungjawabkan, " kata Tim. Beberapa negara telah berulang kali mengungguli prediksi model (termasuk Korea Selatan, yang memenangkan sejumlah acara lintasan speed-track cepat) yang tidak proporsional) sementara yang lain secara konsisten berkinerja buruk (seperti Inggris, yang tampaknya jauh lebih baik di acara musim panas yang diharapkan, mungkin karena — terlepas dari garis lintangnya — ia mendapat lebih banyak hujan daripada salju).

Selain itu, pengecualian yang konsisten yang mereka temukan pada prediksi model adalah bahwa negara tuan rumah mengantongi lebih banyak medali daripada yang seharusnya, hanya berdasarkan data. Baik Italia (selama pertandingan Turin 2006) dan Kanada (selama pertandingan Vancouver 2010) mengalahkan model tersebut, dengan Kanada mencetak rekor sepanjang masa dalam memenangkan 14 medali emas.

Namun, berdasarkan pendekatan yang ketat secara statistik, Graetting yakin bahwa secara keseluruhan, model mereka akan memprediksi jumlah medali akhir dengan tingkat akurasi yang relatif tinggi.

Bagaimana prediksi mereka dibandingkan dengan para ahli yang menggunakan strategi yang lebih konvensional? Para ahli tidak berbeda secara dramatis, tetapi mereka memiliki beberapa negara yang secara tradisional sukses (Norwegia, Kanada, Rusia) memenangkan medali dalam jumlah yang lebih tinggi, bersama dengan beberapa yang lain (Cina, Belanda, Australia) masing-masing memenangkan lebih sedikit.

Sampai saat ini, para Graettingers tidak meletakkan taruhan pada prediksi mereka, tetapi mereka berencana untuk membandingkan output model mereka dengan peluang taruhan tepat sebelum pertandingan dimulai. Jika mereka melihat kejanggalan yang ingin mereka eksploitasi, mereka mungkin akan menempatkan uang mereka di mulut mereka.

Bisakah Model Statistik Memprediksi Prediksi Medali Olimpiade Secara Akurat?