디지털 전환과 앰비언트

로봇 제어를 위해 대규모 언어 모델(LLM)을 사용 본문

Generative AI

로봇 제어를 위해 대규모 언어 모델(LLM)을 사용

IOT전략연구소 2023. 6. 17. 20:48
728x90

제가 다른 여러 글이나 유튜브, 그리고 오프라인 강연에서 많이 하는 말이, ChatGPT에 사용된 트랜스포머(Transformer) 모델은 구글의 크롬 브라우저, 네스트 허브 스피커, 그리고 홈 서비스 로봇을 위해 개발한 것이라는 것입니다. 즉, 이를 소프트웨어나 장치들이 사람의 말을 더 정확히 알아듣게 함으로써 사람과 기계의 인터페이스가 마치 사람과 사람 사이의 대화처럼 느껴지게 하는 것입니다. 

 

이런 시도는 OpenAI가 ChatGPT를 출시한 이후 더욱 가속화 되고 있는데요, OpenAI도 노르웨이에 본사를 둔 휴머노이드 로봇 제조사 1X Technologies(이전에 Halodi Robotics였)에 투자를 하고 있고 아마존도 홈 서비스 로봇인 아스트로(Astro)에 생성형 AI를 온보드 하기 위한 버넘(Burnham) 프로젝트를 진행 중에 있습니다. (사실 OpenAI은 Roboschool이라는 로봇 시뮬레이션을 위한 오픈 소스 소프트웨어 등 독자적으로 로봇과 관련된 다양한 연구를 진행해온 바 있습니다. 하지만, 2021년 직접적인 연구를 중단하고 관련 기업에 투자하는 형태로 방향을 전환한 것 같습니다.)

 

OpenAI가 투자하고 있는 1X Technologies의 휴머노이드 로봇 NEO

 

그리고, 우리나라의 인티그리트도 GPT-플래티 라는 서비스 로봇에 ChatGPT를 탑재하여 현대백화점 같은 복합시설이나 이벤트, 전시회 등에서 테스트를 진행 중에 있습니다.  

 

그리고 아래 영상은 Agility Robotics의 Digit이라는 로봇인데요, 얘 역시 LLM을 이용해서 사람의 명령을 이해하고 그에 맞는 작업을 수행합니다. 바닥에 떨어져 있는 것들을 정리하라고 하자 재활용 특성에 맞게 분리수거를 하는 모습을 보여줍니다. 

 

https://www.youtube.com/watch?v=Vq_DcZ_xc_E 

 

이처럼 대규모 언어 모델은 단순히 기존의 인터넷 검색을 대체하는 것이 아니라 사람과 기계 사이의 인터페이스 방식을 자연스럽게 바꾸며 사람의 명령을 이해하고 그에 맞는 작업을 수행하거나 사용자의 상황에 맞는 제품, 기능, 서비스를 추천하는 방향으로 발전해 나갈 것입니다. 

 

이런 측면에서 향후 1~2년 사이에 대부분의 가전제품들은 버튼 터치나 스마트폰 앱을 통한 제어가 아니라 자연스러운 대화 방식으로 기기를 제어하는 방식이 바뀔 것입니다. 사람의 말을 개별 기기가 인식할 수도 있겠지만, 대부분의 경우 스마트 스피커나 디스플레이가 그 역할을 대신할 것입니다. (그렇다고 해서 AGI를 달성하기 위해 로봇과 같은 구체화(embodiment)가 꼭 필요할지는 모르겠지만, 개인적으로는 있는 것이 모든 시나리오를 더 단순하게 만들 수 있을 것으로 보입니다.)

 

특히, LLM 기반으로 사용자와의 대화 내용 및 자신이 수행한 내용에 대해 기억할 수 있으며, 음성(텍스트) 명령 뿐만 아니라 소리나 영상 등에 대한 멀티모덜 인터페이스를 통해 보다 종합적으로 상황을 인식할 수 있게 될 것입니다. 그리고 더 나아가서는 능동적인 탐색 작업으로까지 그 기능이 확대될 수 있을 것입니다. 물론 이 부분은 사용자가 원하지 않는 일을 할 수도 있기에 다소 우려가 될 수도 있지만, 그 수행 범위를 규정한다면 전혀 문제가 되지 않을 수도 있습니다. 

 

======

아래 기사도 함께 보시면 좋을 것 같습니다. 

https://www.digitimes.com/news/a20230524VL208/digitimes-research-llm-robot.html

 

LLMs to pave way for direct human interaction to enter into home-use robot market, says DIGITIMES Research

The methods for humans to interact with and operate robots are gradually being simplified and the keen development of large language models (LLM) is expected to drive up the popularization of the natural language interaction method, which is intuitive and

www.digitimes.com

 

728x90
반응형