Perbaruan ChatGPT: Melakukan Percakapan Suara dengan Pengguna dan Berinteraksi Menggunakan Gambar
OpenAI mengatakan dalam posting bahwa kemampuan suara baru didukung oleh model text-to-speech baru, yang mampu menghasilkan audio seperti manusia hanya dari teks dan beberapa detik contoh ucapan.
"Kami berkolaborasi dengan aktor suara profesional untuk menciptakan masing-masing suara. Kami juga menggunakan Whisper, sistem pengenalan suara open-source kami, untuk mentranskripsikan kata-kata yang Anda ucapkan ke dalam teks," katanya.
Sementara itu, pemahaman gambar didukung oleh multimodal GPT-3.5 dan GPT-4. Model-model ini menerapkan keterampilan penalaran bahasa mereka ke berbagai gambar.
Posting blog mengatakan bahwa sekarang, pengguna dapat menampilkan ChatGPT satu atau lebih gambar dan bertanya tentang masalah mereka.
Misalnya, seseorang dapat memecahkan masalah mengapa panggangan tidak mau mulai, menjelajahi isi lemari es untuk merencanakan makanan, atau menganalisis grafik kompleks untuk data terkait pekerjaan.
(***)