오픈AI, 음성 대화·이미지 보고 응답하는 기능 곧 출시
‘듣고 말하는 기능’은 이용자와 음성으로 질문과 답변을 주고받는 기능이다. 지금까지는 프롬프트를 통해 대화했다면 이제는 음성 대화가 가능해진다.
다만, 이들 AI 비서가 주로 이용자의 음성 명령을 실행하는 데 초점이 맞춰져 있는 것과 달리 챗GPT는 대화를 할 수 있다.
음성으로 질문을 하면 챗GPT가 이를 텍스트로 변환해 대규모 언어 모델(LLM)에 전달하고, 답변을 받아 다시 음성으로 변환해 말하는 구조다.
챗GPT 음성은 5가지 형태로 제공되며, 이용자는 이 중 하나를 선택할 수 있다.
오픈AI는 또 세계 최대 음원 스트리밍 서비스인 스포티파이와 협력해 목소리를 유지하면서 다른 언어로 번역이 가능하게 하는 방안도 검토하고 있다고 설명했다.
오픈AI는 이 기능을 향후 2주 이내에 챗GPT 유료 구독자들에게 제공하고, 이후 모든 사람도 이용할 수 있도록 할 것이라고 밝혔다.

챗GPT는 이와 함께 이미지를 ‘보고 답하는’ 기능도 탑재한다.
이용자가 이미지를 업로드하고, 그 이미지를 토대로 질문을 하면 챗GPT가 이미지를 보고 답을 해주는 형태다.
예를 들어 분홍색 선글라스 사진을 업로드하고 그것에 어울리는 옷을 제안하도록 요청하거나 수학 문제 사진을 올리고 그것을 푸는 데 도움을 요청할 수 있다.
오픈AI는 이런 이미지 인식 기능에 대한 동영상을 공유했다.
영상에서 한 사용자가 자전거 이미지를 업로드하고 시트(좌석 높이)를 내리기 위해 도움을 요청하자 챗GPT는 평범한 일반적인 답을 제시했다.
그러나 이용자가 자전거 시트 고정 장치 주위에 동그라미를 한 다음 도움을 요청하자, 챗GPT는 볼트 유형을 인식하고 육각 렌치가 필요하다고 알려준다.
또 사용 설명서와 공구 상자의 사진을 보고 올바른 크기의 렌치가 있는지도 확인해 준다.
이 기능은 향후 몇 주내 유료 구독자와 기업 이용자들에게 제공된다.
오픈AI는 “우리 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하는 것이 기능을 개선하고 위험을 완화함으로써 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿는다”고 설명했다.
