Microsoft, yeni robotik yapay zeka modeli Rho-alpha’yı tanıttı

Şirket, bu modeli fizikî dünya yapay zekası kapsamında geliştirdiğini belirterek, robotların algılama, düşünme ve hareket kabiliyetlerini birleştiren ileri bir sistem sunduğunu açıkladı.
Rho-alpha, Microsoft’un Phi serisi görsel-dil modelleri temel alınarak tasarlanan birinci robotik model olarak öne çıkıyor. Şirket, modelin robotların çevreyi algılamasını, insan lisanıyla verilen komutları yorumlamasını ve bu komutlara fizikî dünyada yanıt vermesini hedeflediğini belirtti. Bu yaklaşım, klâsik robotik programlamanın ötesine geçerek robotların insan üzere anlayıp harekete geçmesine imkan tanıyor.
DUYULARI BİR ORTADA KULLANABİLİYOR
Rho-alpha, sırf kameradan görme ve doğal lisan manaya kullanmıyor, dokunsal algı yeteneklerini de entegre ediyor. Bu sayede robotlar, sırf görsel bilgiye dayanmak yerine temasla ilgili geri bildirimleri de işleyerek daha karmaşık vazifelerde hassas hareket kabiliyeti sergileyebilecek. Şirket, ileriye dönük olarak kuvvet algısı üzere ek duyusal modların da modele ek edileceğini belirtiyor.
Microsoft, Rho-alpha’nın öğrenme sürecini klasik sabit programlardan çıkarmaya çalışıyor. Model, robotun bir vazifede yanılgı yapması durumunda operatörlerin gerçek vakitli müdahalesini örnek olarak alıp bunları öğrenme fırsatı olarak kullanabiliyor. Bu sistem, robotların ortama ve kullanıcı tercihlerine daha dinamik biçimde ahenk geliştirmesine yardımcı oluyor.
NASIL EĞİTİLİYOR?
Robotik dataların toplanması, bilhassa dokunsal geribildirim üzere duyusal datalar için güç ve maliyetli olduğundan, Microsoft çeşitli bilgi kaynaklarını bir ortaya getiriyor. Bunlar ortasında: Gerçek robot gösterimleri, simülasyon ortamlarında üretilen sentetik bilgiler ve web ölçeğinde görsel soru-cevap (VQA) data kümeleri bulunuyor.
Modelin eğitim sürecinde NVIDIA’nın Isaac Sim üzere gerçekçi simülasyon araçları kullanılıyor. Bu kombinasyon, robotlara daha geniş bir vazife ve ortam çeşitliliğiyle çalışma imkanı tanıyor.
Rho-alpha’nın öne çıkan yeteneklerinden biri, robotların çift kollu (bimanual) misyonlarda doğal lisan komutlarını anlayıp yerine getirebilmesi. Örneğin, “Yeşil düğmeye sağ kol ile bas” yahut “Kırmızı teli çek” üzere günlük tabirlerle verilen vazifeler özel bir programlama gerekmeden robot tarafından uygulamalı olarak gerçekleştirilebiliyor. Bu, robotların değişken ve öngörülemeyen etraflarda çalışmasını kolaylaştırıyor.



