디지털 전환과 앰비언트

chatGPT 같은 생성형 인공지능(GPT) 기술이 음성 인식 기술 및 스마트 스피커의 구원자가 될 것인가? 본문

ICT & ICS

chatGPT 같은 생성형 인공지능(GPT) 기술이 음성 인식 기술 및 스마트 스피커의 구원자가 될 것인가?

IOT전략연구소 2023. 2. 5. 10:16
728x90

최근 아마존이 12,000명을 구조조정했습니다. 그 중의 10,000명이 음성 비서인 알렉사(Alexa) 개발과 관련된 사람들이라고 합니다. 이에 아마존이 알렉사와 에코 사업을 중단할 것이라는 이야기는 물론 심지어는 아래 기사처럼 음성 인식 기술의 실패가 스마트폼의 미래를 바꿀 것이며 여전히 스마트폰이 잠재력이 있는 기술이라는 이야기까지 합니다. 이런 생각에 대해 여러분들은 어떻게 생각하시나요?

 

https://www.thefastmode.com/expert-opinion/30210-how-the-failure-of-voice-assistants-changes-the-future-of-smart-homes

 

How The Failure of Voice Assistants Changes The Future of Smart Homes

In the early years, voice assistants represented one of the fastest-developing interfaces for users to access the web. But, with time, this trend has not continued.

www.thefastmode.com

 

아마존의 구조조정이 음성인식 기술의 실패와 관련이 있나?

먼저 아마존의 인력 구조조정이 음성인식 기술의 실패와 관련이 있는지에 대해 먼저 생각해봐야 할 것 같습니다. 이 주장의 배경에는 음성인식 기술이 이에 투자한 비용 대비 매출을 일으키지 못하기 때문에, 다시 말해 상당한 적자를 지속해서 일으키기 때문에 나오는 주장입니다. 실제로 알렉사는 매년 약 5조 정도의 적자를 일으키고 있습니다. 

 

그러면 알렉사 수익은 어디에서 발생할까요? 알렉사에 의한 수익은 크게 두 가지 유형으로 구분이 되는데요, 하나는 알렉사 같은 음성인식 기술을 판매함으로써 나오는 직접적인 수익입니다. 예를 들면, 미국이나 유럽향 LG전자의 스마트 냉장고에 알렉사가 탑재되는 것이죠. 또는 스텔란티스 같은 자동차에 알렉사가 들어가는 것입니다. 이 때는 고객이 원하는 형태로 호출어를 변경할 수 있도록 해주는 ACA 기능도 포함됩니다. 

 

 

또 다른 수익은 간접적인 것으로 음성인식을 이용하게 함으로써 다른 곳에서 수익이 발생하게 하는 것입니다. 예를 들어, 음성으로 생필품을 주문하게 하거나 음식배달, 우버 호출 같은 생활 서비스를 쉽게 이용하도록 하는 것입니다. 이 과정에서 제품의 판매나 서비스 중개 수수료 같은 방식으로 간접적인 수익을 낼 수 있는거죠. 이 외에 또 다른 방식이 있을지도 모르겠습니다. 

 

중요한 건 이렇게 해서 얻을 수 있는 수익의 합이 아직은 알렉사를 개발하고 유지하는데 들어가는 비용보다 크지 않다는 것입니다. 그런데 여기에 문제가 하나 있습니다. 첫번째 직접적인 수익은 명확하게 정량화가 가능한 반면, 두번째 간접적인 수익은 그렇지 않다는 것입니다. 일반적으로 간접적익 매출 기여도를 설명하기 위해 기여 매출이라는 표현을 사용하기도 하는데, 이 역시 간접 매출을 정확하게 정량화 하는 것이 쉽지 않습니다. 

 

따라서, 음성인식 기술이 그 자체로 아마존의 수익성에 악영향을 끼친다고 단정하기는 어려울 것 같습니다. 

 

애플과 구글은 구조조정을 하지 않고 있음

만약, 음성인식 기술이 수익에 부정적인 영향을 끼친다면 애플과 구글은 왜 관련 인력들을 구조조정하지 않는 것일까요? 그리고 홈팟 2세대처럼 왜 새로운 스피커를 지속적으로 출시하려는 것일까요? 이런 부분만 보더라도 단순히 수익성 때문에 알렉사 관련 인력을 구조조정한 것은 아니라고 생각됩니다. 

 

문제는 서비스

인공지능 스피커와의 상호작용은 크게 두 가지 형태로 이루어집니다. 하나는 사용자가 일방적으로 명령을 내리는 방식이죠. 거실 조명 켜, 스토브 전원 꺼, 혹은 KBS 1라디오 틀어처럼 자신이 하고자 하는 일을 스마트 시피커에게 지시하는 경우에 나타나죠. 다른 하나는 대화 형태를 띱니다.

 

두 주체간의 대화는 사용자가 먼저 시작할 수도 있고 스마트 스피커가 먼저 시작할 수도 있습니다. 중요한 것은 누가 먼저 질문을 하든간에 질문에 대한 답변이 이어지고 그에 대한 추가 질문이나 피드백이 이어지게 된다는 것입니다. 문제는 현재의 스마트 스피커에서는 이런 형태의 대화가 일반적이지 않다는 것입니다. 게다가 스마트 스피커가 먼저 말을 거는 것에 대해 바람직하지 않다고 바라보는 시각이 우세합니다. 

 

또 다른 문제는 사용자가 일방적으로 명령을 내리는 경우, 스마트 스피커가 자신의 방식으로 명령을 이해하고 처리를 한다는 것입니다. 그럼에도 자신이 수행한 일이 잘못된 일인지 잘한 일인지 알지 못한다는 거죠. 마치 더닝 크루거 효과(Dunning–Kruger effect)가 스마트 스피커에서도 나타나는 것입니다. 더닝 크루거 효과는 인지 편향의 하나로, 능력이 없는 사람이 잘못된 결정을 내려 잘못된 결론에 도달하지만, 능력이 없기 때문에 자신의 실수를 알아차리지 못하는 현상을 가리킵니다. 굥 머시기 정부랑 똑같은 일이 발생하는 것입니다. 

 

생성형 인공지능(GPT) 기술이 필요

이런 문제를 해결하기 위해서는 음성인식 기술과 함께 사용되는 인공지능이 더 똑똑해져야 한다는 것입니다. 사용자가 질문한 것에 가장 적합해 보이는 구글 검색 결과나 위키피디아의 내용을 알려주거나 가장 비슷하게 들리는 노래를 틀어주는 것이 아니라 사용자가 원하는 가장 정확한 노래를 틀어줄 수 있어야 하며 정답이 아닐지라도 마치 친구가 이야기하는 것처럼 조리 있게 답을 이야기해 주어야 합니다. 

 

이를 위해 필요한 것이 요즘 주목받고 있는 chatGPT와 같은 생성형 인공지능 기술입니다. 잘 아시겠지만, chatGPT는 GPT의 인터페이스 방식으로 채탱(typing)을 사용하는 것인데요, 이를 음성으로 대체하면 되는 것입니다. 거실의 스마트 램프를 켜거나 끄는 것처럼 단순한 작업을 요하는 것은 음성인식의 정확도만 높아지면 가능한 일이지만,

다소 시간이 걸릴 수 있겠지만, 질문과 대답의 과정을 반복해가며 사용자가 원하는 

 

아래 기사를 보면 이미 chatGPT와 애플의 Siri를 연동하는 시도가 있는 것 같습니다. 

 

https://voicebot.ai/2023/01/20/how-one-developer-combined-the-mind-of-chatgpt-with-the-voice-of-apples-siri/

 

How One Developer Combined the Mind of ChatGPT with the Voice of Apple's Siri - Voicebot.ai

A developer augmented his Apple Siri smart home with the power of GPT-3, melding the conversational abilities of ChatGPT with..

voicebot.ai

 

<추가 업데이트 예정>

728x90
반응형