![boboiboy ; cara pembuatan video boboiboy dan para pengisi suara di video boboiboy](https://i.ytimg.com/vi/8sjgG1tOuY8/hqdefault.jpg)
Kandungan
Live Caption adalah salah satu ciri Android yang paling sejuk lagi, menggunakan pembelajaran mesin pada peranti untuk menghasilkan kapsyen untuk video tempatan dan klip web.
Google telah menerbitkan catatan blog yang memperincikan dengan tepat bagaimana ciri ini berfungsi, dan sebenarnya ia terdiri daripada tiga model pembelajaran mesin pada peranti, untuk permulaan.
Terdapat model transduksi rangkaian neural berulang (RNN-T) berulang untuk pengecaman pertuturan itu sendiri, tetapi Google juga menggunakan rangkaian neural berulang untuk meramalkan tanda baca.
Model pembelajaran mesin ketiga pada peranti adalah rangkaian neural konvensional (CNN) untuk peristiwa bunyi, seperti burung berkicau, orang bertepuk tangan, dan muzik. Google mengatakan model pembelajaran mesin ketiga ini diperoleh daripada kerjanya pada apl Kebolehaksesan Transkrip Langsung, yang mampu menyalin ucapan dan peristiwa bunyi.
Mengurangkan kesan Live Caption
Syarikat itu berkata ia mengambil beberapa langkah untuk mengurangkan penggunaan bateri dan permintaan prestasi Live Caption.Untuk satu, mesin pengiktirafan ucapan automatik penuh (ASR) hanya berjalan apabila ucapan sebenarnya dikesan, berbanding dengan terus berjalan di latar belakang.
"Sebagai contoh, apabila muzik dikesan dan ucapan tidak hadir dalam aliran audio, label akan muncul di skrin, dan model ASR akan dipunggah. Model ASR hanya dimuatkan semula ke dalam memori apabila ucapan hadir dalam aliran audio sekali lagi, "kata Google dalam catatan blognya.
Google juga menggunakan teknik seperti pemangkasan sambungan neural (mengurangkan saiz model pertuturan), mengurangkan penggunaan kuasa sebanyak 50% dan membenarkan Live Caption dijalankan secara berterusan.
Google menerangkan bahawa hasil pengiktirafan ucapan dikemas kini beberapa kali setiap saat sebagai kapsyen terbentuk, tetapi ramalan tanda baca adalah berbeza. Gergasi carian mengatakan ia memberikan ramalan tanda baca "pada ekor teks dari ayat yang paling baru diiktiraf" untuk mengurangkan permintaan sumber.
Live Caption kini boleh didapati dalam siri Google Pixel 4, dan Google mengatakan ia akan tersedia "tidak lama lagi" pada siri Pixel 3 dan peranti lain. Syarikat itu berkata ia juga berfungsi untuk menyokong bahasa-bahasa lain dan sokongan yang lebih baik untuk kandungan berbilang penceramah.