Robot Google Gemini bisa diperintah bahasa manusia - tek id

By - Seputar Informasi • 7/16/2024 12:04:00 PM

Robot Google Gemini bisa diperintah bahasa manusia

Robot ini punya otak Google Gemini, bisa diperintah bahasa manusia

Dengan menggunakan AI Google Gemini, para peneliti dapat membuat robot bernama Everyday Robot dapat diperintah dengan bahasa manusia.

Penggunaan robot di tempat kerja seperti di kantor atau hotel saat ini sudah semakin lazim kita temui. Namun, kelemahan dari robot-robot ini adalah mereka telah diprogram set instruksi khusus dan tidak dapat merespon jika diberi pertanyaan atau perintah di luar instruksi yang sudah diberikan.

Tapi, para peneliti dari Google baru-baru ini berhasil memasukkan Gemini ke dalam salah satu robot yang ada di kantor mereka. Robot yang mereka lakukan eksperimen bernama Everyday Robot yang kini dapat melakukan banyak hal.

Dengan menggunakan Gemini, pengguna dapat menggunakan perintah bahasa alami dan masukan visual untuk berinteraksi. Navigasi robotik dulunya mengharuskan para peneliti untuk tidak hanya memetakan lingkungan terlebih dahulu, tetapi juga memberikan koordinat fisik tertentu di dalam ruang untuk memandu mesin.

Kemajuan terkini dalam apa yang dikenal sebagai navigasi Vision Language telah memungkinkan pengguna untuk memberikan perintah bahasa alami kepada robot, seperti "pergi ke meja kerja". Para peneliti Google membawa konsep itu selangkah lebih maju dengan menggabungkan kemampuan multimoda, sehingga robot dapat menerima instruksi bahasa alami dan gambar pada saat yang bersamaan, seperti dikutip dari laman Digital Trends (15/7).

Salah satu contohnya, pengguna di gudang dapat menunjukkan sebuah barang kepada robot dan bertanya, "di rak mana ini?". Dengan memanfaatkan kekuatan Gemini 1.5 Pro, AI menginterpretasikan pertanyaan lisan dan informasi visual untuk merumuskan bukan hanya respons tetapi juga jalur navigasi untuk mengarahkan pengguna ke tempat yang benar di lantai gudang.

Robot ini juga diuji dengan perintah seperti, "Bawa saya ke ruang konferensi dengan pintu ganda", "Di mana saya bisa meminjam pembersih tangan", dan "Saya ingin menyimpan sesuatu agar tidak terlihat oleh publik. Di mana saya harus pergi?" dan bisa memberikan jawaban yang meyakinkan.

Contoh lain dalam sebuah video menunjukkan seorang peneliti mengaktifkan sistem dengan "robot OK" sebelum meminta untuk dituntun ke suatu tempat di mana "dia bisa menggambar". Robot itu menanggapi dengan "beri saya waktu sebentar. Berpikir dengan Gemini ..." sebelum berangkat cepat melalui kantor DeepMind seluas 9.000 kaki persegi untuk mencari papan tulis besar yang terpasang di dinding.

Agar adil, robot-robot perintis ini sudah familiar dengan tata letak ruang kantor. Tim menggunakan teknik yang dikenal sebagai "Multimodal Instruction Navigation with demonstration Tours (MINT)". Ini melibatkan tim yang pertama-tama memandu robot secara manual di sekitar kantor, menunjuk area dan fitur tertentu menggunakan bahasa alami, meskipun efek yang sama dapat dicapai dengan sekadar merekam video ruang menggunakan telepon pintar.

Dari sana, AI menghasilkan grafik topologi tempat ia bekerja untuk mencocokkan apa yang dilihat kameranya dengan "kerangka sasaran" dari video demonstrasi.

Kemudian, tim menggunakan kebijakan navigasi Vision-Language-Action (VLA) hierarkis yang “menggabungkan pemahaman lingkungan dan penalaran akal sehat”, untuk memberi instruksi kepada AI tentang cara menerjemahkan permintaan pengguna menjadi tindakan navigasi.

“Hasilnya sangat sukses dengan tingkat keberhasilan robot yang mencapai sebesar 86 persen hingga 90 persen pada tugas navigasi yang sebelumnya tidak layak yang melibatkan penalaran kompleks dan instruksi pengguna multimoda dalam lingkungan dunia nyata yang besar," tulis para peneliti.

Namun, para peneliti mengakui bahwa masih ada ruang untuk perbaikan, dengan menunjukkan bahwa robot tersebut (belum) dapat secara otonom melakukan tur demonstrasinya sendiri dan mencatat bahwa waktu inferensi AI yang tidak praktis (berapa lama waktu yang dibutuhkan untuk merumuskan respons) sebesar 10 hingga 30 detik membuat interaksi dengan sistem menjadi sebuah studi tentang kesabaran.