Sebuah jaringan saraf baru yang dikembangkan oleh para peneliti dari Massachusetts Institute of Technology mampu membangun perkiraan kasar wajah seseorang hanya berdasarkan potongan pidato mereka, sebuah makalah yang diterbitkan dalam laporan pra-cetak server arXiv .
Tim itu melatih alat kecerdasan buatan — sebuah algoritma pembelajaran mesin yang diprogram untuk “berpikir” seperti otak manusia — dengan bantuan jutaan klip daring yang menangkap lebih dari 100.000 pembicara berbeda. Dijuluki Speech2Face, jaringan saraf menggunakan dataset ini untuk menentukan hubungan antara isyarat vokal dan fitur wajah tertentu; seperti yang ditulis para ilmuwan dalam penelitian, usia, jenis kelamin, bentuk mulut, ukuran bibir, struktur tulang, bahasa, aksen, kecepatan, dan pelafalan semua faktor dalam mekanisme bicara.
Menurut Melanie Ehrenkranz dari Gizmodo, Speech2Face mengacu pada asosiasi antara penampilan dan ucapan untuk menghasilkan rendering fotorealistik dari individu yang menghadap ke depan dengan ekspresi netral. Meskipun gambar-gambar ini terlalu umum untuk diidentifikasi sebagai orang tertentu, sebagian besar dari mereka secara akurat menunjukkan jenis kelamin, ras, dan usia penutur.
Menariknya, Jackie Snow menjelaskan untuk Fast Company, penelitian baru ini tidak hanya didasarkan pada penelitian sebelumnya mengenai prediksi usia dan jenis kelamin dari pembicaraan, tetapi juga menyoroti hubungan antara suara dan "fitur kraniofasial" seperti struktur hidung.
Para penulis menambahkan, "Ini dicapai tanpa informasi sebelumnya atau adanya pengklasifikasi yang akurat untuk jenis fitur geometris halus ini."
Namun, algoritma ini memiliki kekurangan. Seperti yang dicatat oleh Live Science 's Mindy Weisberger, model ini mengalami kesulitan menganalisis variasi bahasa. Ketika memutar klip audio seorang pria Asia yang berbicara bahasa Cina, misalnya, Speech2Face menghasilkan wajah etnis yang benar, tetapi ketika individu yang sama direkam berbicara dalam bahasa Inggris, AI menghasilkan gambar seorang pria kulit putih.
Dalam kasus lain, laki-laki bernada tinggi, termasuk anak-anak, secara keliru diidentifikasi sebagai perempuan, mengungkapkan bias gender model dalam mengaitkan suara bernada rendah dengan laki-laki dan bernada tinggi dengan perempuan. Mengingat fakta bahwa data pelatihan sebagian besar berasal dari video pendidikan yang diposting di YouTube, para peneliti lebih lanjut menunjukkan bahwa algoritma gagal untuk "mewakili secara merata seluruh populasi dunia."
Menurut Slate 's Jane C. Hu, legalitas menggunakan video YouTube untuk penelitian ilmiah cukup jelas. Klip tersebut dianggap informasi yang tersedia untuk umum; bahkan jika pengguna menyalin video mereka, para ilmuwan dapat memasukkan materi dalam percobaan mereka di bawah klausa "penggunaan wajar".
Tetapi etika dari praktik ini kurang terus terang. Berbicara dengan Hu, Nick Sullivan, kepala kriptografi di Cloudflare, mengatakan dia terkejut melihat foto dirinya ditampilkan dalam studi tim MIT, karena dia tidak pernah menandatangani surat pernyataan pengabaian atau mendengar langsung dari para peneliti. Meskipun Sullivan memberi tahu Hu bahwa akan "baik" diberi tahu tentang dimasukkannyanya ke dalam basis data, ia mengakui bahwa mengingat besarnya kumpulan data, akan sulit bagi para ilmuwan untuk menjangkau semua orang yang digambarkan.
Pada saat yang sama, Sullivan menyimpulkan, “Karena gambar dan suara saya dipilih sebagai contoh dalam makalah Speech2Face, daripada hanya digunakan sebagai titik data dalam studi statistik, akan lebih sopan untuk menjangkau untuk memberi tahu saya atau minta izin saya. "
Salah satu aplikasi dunia nyata potensial untuk Speech2Face menggunakan model untuk "melampirkan wajah representatif" untuk panggilan telepon berdasarkan suara pembicara. Snow menambahkan bahwa teknologi pengenalan suara sudah digunakan di sejumlah bidang — seringkali tanpa sepengetahuan atau persetujuan individu. Tahun lalu, Chase meluncurkan program "Voice ID" yang belajar mengenali pelanggan kartu kredit yang menelepon bank, sementara lembaga pemasyarakatan di seluruh negeri sedang membangun basis data dari "voiceprints" orang yang dipenjara.