https://frosthead.com

Bagaimana Google Menghindari Spam Anda dari Kotak Masuk Anda

Di balik semua informasi Google yang berderak — mulai dari mencari tahu hasil pencarian mana yang paling penting, hingga membaca dan menjaga tab di email Anda — ada beberapa matematika yang menarik. Dan baru-baru ini Javier Tordable, seorang insinyur perangkat lunak, melakukan presentasi tentang hal itu, membuka jendela ke dunia Google culun hanya celah.

Mari kita mulai dengan Gmail. Kadang-kadang Anda mendapatkan email spam, tetapi Gmail cukup pandai untuk mengetahuinya, ketika seorang koresponden mencoba membuat Anda berinvestasi pada seorang pangeran Nigeria, Anda mungkin tidak ingin surat itu ada di kotak masuk Anda. Bagaimana bisa tahu? Langkah satu: latih mesin. Langkah dua: mulai bekerja.

Ini disebut pembelajaran mesin, dan Google melakukan banyak hal. Pada langkah pertama, Anda harus melakukan apa yang oleh para ilmuwan komputer sebut "mencirikan sebuah contoh." Dalam bahasa matematika itu berarti:

Secara umum, karakteristik dari instance dapat dianggap sebagai elemen dalam vektor ruang euclide ndimensional untuk n besar (100-1000 dimensi normal, 1M-10M bukan tidak pernah terjadi)

Tetapi, inilah cara untuk memikirkannya jika Anda berhenti menghitung setelah Calc 1. Gmail dapat menarik beberapa informasi kunci dari email tertentu. Berapa lamakah? Ada berapa huruf kapital? Apakah ini dari seseorang yang pernah Anda kirimi email sebelumnya? Anda tidak ingin informasi yang diperlukan untuk membuat keputusan menjadi terlalu sulit untuk didapat atau ditangani, karena itu akan memperlambat dan mengurangi akurasi mesin Anda. Jadi Google menarik garis, berdasarkan apa yang diketahui tentang spam. Email yang melewati jatuh di satu sisi garis, dan yang spam, di sisi lain.

Lebih banyak matematika berbicara:

Model klasifikasi sederhana adalah hyperplane dalam ruang karakteristik. Mesin virtual data di satu sisi hyperplane diklasifikasikan sebagai email yang valid dan mesin virtual di sisi lain diklasifikasikan sebagai spam.

Bagaimana dengan pencarian suara — juga disebut pengenalan suara otomatis, atau ASR? Seperti pembelajaran mesin, ASR terjadi dalam dua bagian: memproses suara yang masuk dan mencari tahu apa yang Anda katakan. Bagian pertama melibatkan transformasi Fourier, yang mengisolasi bit-bit penting yang dapat diterjemahkan oleh komputer. Bagian kedua adalah memodelkan pidato menggunakan apa yang disebut "model Markov tersembunyi." Tordable menjelaskan:

Dalam model ini negara adalah huruf-huruf pesan dan urutan kejadian adalah sinyal suara. Algoritma Viterbi dapat digunakan untuk mendapatkan urutan keadaan kemungkinan maksimum.

Google ingin membuat pengenalan suara lebih baik dan lebih mudah. Dalam studi kasus ini, sekelompok jagoan Google menulis:

Tujuan di Google adalah membuat akses lisan tersedia di mana-mana. Kami ingin membiarkan pengguna memilih - mereka harus dapat menerima begitu saja bahwa interaksi lisan selalu menjadi pilihan. Mencapai ubiquity memerlukan dua hal: ketersediaan (yaitu, dibangun ke dalam setiap interaksi yang mungkin di mana input atau output ucapan dapat masuk akal), dan kinerja (yaitu, bekerja dengan baik sehingga modalitas tidak menambah gesekan pada interaksi).

Bidang lain di mana Google menggunakan matematika ada di peta mereka — baru-baru ini menjadi sorotan setelah Apple memulai sistem pemetaan mereka dengan banyak kritik. Di jantung Google Maps adalah teori grafik dasar — ​​matematika untuk berpindah dari satu tempat ke tempat lain saat menempuh jarak terdekat. Tapi, tentu saja, ini lebih kompleks dari itu. Tordable menulis, "Satu masalah unik adalah grafik yang digunakan di Google Maps berisi jutaan node, tetapi algoritme harus dijalankan dalam milidetik."

Google tidak akan memberi tahu kami bagaimana mereka melakukan itu. Kalau tidak, Apple tidak akan mengalami masalah, tetapi dasar-dasarnya melibatkan membuang algoritma Dijsktra (mungkin algoritma pencarian grafik yang paling umum digunakan). Beberapa tahun yang lalu, para ilmuwan komputer di Universitas Karlsruhe menggambarkan cara baru untuk memberi peringkat pada kueri jalur untuk mendapatkan hasil yang jauh lebih cepat. Mereka menulis:

Algoritme kami memproses lebih dahulu delapan digit jumlah node yang diperlukan untuk peta AS atau Eropa Barat dalam beberapa jam menggunakan ruang linear. Kueri jalur terpendek (yaitu tercepat) kemudian membutuhkan sekitar delapan milidetik untuk menghasilkan jalur terpendek yang tepat. Ini sekitar 2.000 kali lebih cepat daripada menggunakan algoritma Dijkstra.

Tordable menelusuri sejumlah alat matematika lain yang digunakan oleh Google, termasuk yang terlibat dalam Google Books, Pencarian Gambar, Analytics, YouTube, Google Translate, Google Earth, dan Picasa. Anda dapat melihat seluruh rangkaian slide di sini.

Lebih banyak dari Smithsonian.com:

Smithsonian Mendapat Google Dipetakan
Lacak Tren Makanan Dengan Google Buku

Bagaimana Google Menghindari Spam Anda dari Kotak Masuk Anda