https://frosthead.com

Bisakah Model Komputer Memprediksi Putaran Pertama Kegilaan Bulan Maret Ini?

“Waspadalah dengan Ides of March.” Ya, akhirnya pada saat itu tahun lagi: ketika para kaisar bola basket kampus harus menjaga punggung mereka, jangan sampai benih terbawah dari pemogokan turnamen.

Sebelum 15 Maret, jutaan orang di seluruh dunia akan mengisi tanda kurung March Madness mereka. Pada 2017, ESPN menerima rekor 18, 8 juta kurung.

Langkah pertama menuju braket sempurna adalah memilih putaran pertama dengan benar. Sayangnya, kebanyakan dari kita tidak dapat memprediksi masa depan. Tahun lalu, hanya 164 tanda kurung yang masuk sempurna melalui putaran pertama - kurang dari 0, 001 persen.

18, 8 juta kurung dikirimkan.

164 sempurna setelah Putaran 1.

Ini untuk berprestasi. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 Maret 2017

Banyak tanda kurung rusak ketika tim unggulan rendah mengecewakan unggulan yang lebih disukai. Sejak lapangan diperluas menjadi 64 tim pada tahun 1985, setidaknya delapan gangguan terjadi rata-rata setiap tahun. Jika Anda ingin memenangkan kelompok braket Anda, lebih baik Anda memilih setidaknya beberapa gangguan.

Kami adalah dua Ph.D. kandidat di Ohio State University yang memiliki hasrat untuk ilmu data dan bola basket. Tahun ini, kami memutuskan akan menyenangkan untuk membangun program komputer yang menggunakan pendekatan matematika untuk memprediksi gangguan putaran pertama. Jika kita benar, braket yang dipilih menggunakan program kita harus berkinerja lebih baik melalui putaran pertama daripada braket rata-rata.

Manusia yang bisa berbuat salah

Tidak mudah untuk mengidentifikasi game babak pertama mana yang akan menghasilkan kekesalan.

Katakanlah Anda harus memutuskan antara benih No. 10 dan benih No. 7. Unggulan ke-10 ini melakukan kekalahan dalam tiga penampilan turnamen terakhirnya, bahkan pernah masuk Final Four. Unggulan ke-7 adalah tim yang menerima sedikit atau tidak ada liputan nasional; penggemar biasa mungkin belum pernah mendengar tentang mereka. Yang mana yang akan Anda pilih?

Jika Anda memilih unggulan 10 di 2017, Anda akan memilih Virginia Commonwealth University daripada Saint Mary's of California - dan Anda salah. Berkat kekeliruan pengambilan keputusan yang disebut bias kebaruan, manusia dapat diperdaya untuk menggunakan pengamatan terbaru mereka untuk membuat keputusan.

Bias kebaruan hanyalah salah satu jenis bias yang dapat menyusup ke proses memetik seseorang, tetapi ada banyak yang lain. Mungkin Anda bias terhadap tim tuan rumah Anda, atau mungkin Anda mengidentifikasi dengan pemain dan sangat ingin dia berhasil. Semua ini mempengaruhi braket Anda dengan cara yang berpotensi negatif. Bahkan profesional berpengalaman pun jatuh ke dalam perangkap ini.

Kesal pemodelan

Pembelajaran mesin dapat bertahan melawan perangkap ini.

Dalam pembelajaran mesin, ahli statistik, ahli matematika dan ilmuwan komputer melatih mesin untuk membuat prediksi dengan membiarkannya “belajar” dari data masa lalu. Pendekatan ini telah digunakan di berbagai bidang, termasuk pemasaran, kedokteran dan olahraga.

Teknik pembelajaran mesin dapat disamakan dengan kotak hitam. Pertama, Anda memberi makan algoritma data masa lalu, pada dasarnya pengaturan cepat pada kotak hitam. Setelah pengaturan dikalibrasi, algoritme dapat membaca dalam data baru, membandingkannya dengan data sebelumnya dan kemudian memuntahkan prediksi.

Tampilan kotak hitam dari algoritma pembelajaran mesin. Tampilan kotak hitam dari algoritma pembelajaran mesin. (Matthew Osborne, CC BY-SA)

Dalam pembelajaran mesin, ada berbagai kotak hitam yang tersedia. Untuk proyek March Madness kami, yang kami inginkan dikenal sebagai algoritma klasifikasi. Ini membantu kami menentukan apakah suatu game harus diklasifikasikan sebagai gangguan atau tidak, baik dengan memberikan kemungkinan gangguan atau dengan secara eksplisit menggolongkan suatu permainan.

Program kami menggunakan sejumlah algoritma klasifikasi populer, termasuk regresi logistik, model hutan acak dan tetangga terdekat k. Setiap metode seperti "merek" yang berbeda dari mesin yang sama; mereka bekerja secara berbeda di bawah tenda seperti Ford dan Toyota, tetapi melakukan pekerjaan klasifikasi yang sama. Setiap algoritma, atau kotak, memiliki prediksi sendiri tentang kemungkinan gangguan.

Kami menggunakan statistik dari semua tim putaran pertama 2001 hingga 2017 untuk menetapkan nomor di kotak hitam kami. Ketika kami menguji salah satu algoritma kami dengan data putaran pertama 2017, itu memiliki tingkat keberhasilan sekitar 75 persen. Ini memberi kami keyakinan bahwa menganalisis data masa lalu, bukan hanya mempercayai usus kami, dapat mengarah pada prediksi gangguan yang lebih akurat, dan dengan demikian kurung keseluruhan lebih baik.

Apa kelebihan kotak-kotak ini dibandingkan intuisi manusia? Untuk satu, mesin dapat mengidentifikasi pola di semua data 2001-2017 dalam hitungan detik. Terlebih lagi, karena mesin hanya mengandalkan data, mereka mungkin cenderung jatuh pada bias psikologis manusia.

Itu bukan untuk mengatakan bahwa pembelajaran mesin akan memberi kita tanda kurung yang sempurna. Meskipun kotak melewati bias manusia, itu tidak kebal terhadap kesalahan. Hasil tergantung pada data masa lalu. Misalnya, jika unggulan No. 1 kalah di babak pertama, model kami kemungkinan tidak akan memprediksinya, karena itu belum pernah terjadi sebelumnya.

Selain itu, algoritma pembelajaran mesin bekerja paling baik dengan ribuan atau bahkan jutaan contoh. Hanya 544 game March Madness putaran pertama telah dimainkan sejak tahun 2001, jadi algoritme kami tidak akan memanggil setiap gangguan dengan benar. Ahli gema bola basket yang sama, Jalen Rose, hasil kami harus digunakan sebagai alat bersama dengan pengetahuan ahli Anda - dan beruntung! - untuk memilih game yang benar.

Kegilaan belajar mesin?

Kami bukan orang pertama yang menerapkan pembelajaran mesin ke March Madness dan kami tidak akan menjadi yang terakhir. Bahkan, teknik pembelajaran mesin mungkin segera diperlukan untuk membuat braket Anda kompetitif.

Anda tidak perlu gelar dalam matematika untuk menggunakan pembelajaran mesin - meskipun itu membantu kami. Segera, pembelajaran mesin mungkin lebih mudah diakses dari sebelumnya. Mereka yang tertarik dapat melihat model kami secara online. Merasa bebas untuk menjelajahi algoritme kami dan bahkan datang dengan pendekatan yang lebih baik sendiri.


Artikel ini awalnya diterbitkan di The Conversation. Percakapan

Matthew Osborne, Ph.D Kandidat dalam Matematika, Ohio State University

Kevin Nowland, Ph.D Kandidat Matematika, The Ohio State University

Bisakah Model Komputer Memprediksi Putaran Pertama Kegilaan Bulan Maret Ini?