오픈AI, 음성 대화·이미지 보고 응답하는 기능 곧 출시
‘듣고 말하는 기능’은 이용자와 음성으로 질문과 답변을 주고받는 기능이다. 지금까지는 프롬프트를 통해 대화했다면 이제는 음성 대화가 가능해진다.
다만, 이들 AI 비서가 주로 이용자의 음성 명령을 실행하는 데 초점이 맞춰져 있는 것과 달리 챗GPT는 대화를 할 수 있다.
음성으로 질문을 하면 챗GPT가 이를 텍스트로 변환해 대규모 언어 모델(LLM)에 전달하고, 답변을 받아 다시 음성으로 변환해 말하는 구조다.
챗GPT 음성은 5가지 형태로 제공되며, 이용자는 이 중 하나를 선택할 수 있다.
오픈AI는 또 세계 최대 음원 스트리밍 서비스인 스포티파이와 협력해 목소리를 유지하면서 다른 언어로 번역이 가능하게 하는 방안도 검토하고 있다고 설명했다.
오픈AI는 이 기능을 향후 2주 이내에 챗GPT 유료 구독자들에게 제공하고, 이후 모든 사람도 이용할 수 있도록 할 것이라고 밝혔다.

챗GPT는 이와 함께 이미지를 ‘보고 답하는’ 기능도 탑재한다.
이용자가 이미지를 업로드하고, 그 이미지를 토대로 질문을 하면 챗GPT가 이미지를 보고 답을 해주는 형태다.
예를 들어 분홍색 선글라스 사진을 업로드하고 그것에 어울리는 옷을 제안하도록 요청하거나 수학 문제 사진을 올리고 그것을 푸는 데 도움을 요청할 수 있다.
오픈AI는 이런 이미지 인식 기능에 대한 동영상을 공유했다.
영상에서 한 사용자가 자전거 이미지를 업로드하고 시트(좌석 높이)를 내리기 위해 도움을 요청하자 챗GPT는 평범한 일반적인 답을 제시했다.
그러나 이용자가 자전거 시트 고정 장치 주위에 동그라미를 한 다음 도움을 요청하자, 챗GPT는 볼트 유형을 인식하고 육각 렌치가 필요하다고 알려준다.
또 사용 설명서와 공구 상자의 사진을 보고 올바른 크기의 렌치가 있는지도 확인해 준다.
이 기능은 향후 몇 주내 유료 구독자와 기업 이용자들에게 제공된다.
오픈AI는 “우리 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하는 것이 기능을 개선하고 위험을 완화함으로써 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿는다”고 설명했다.








![[포토뉴스] 이재연 보험, 내슈빌서 보험 교육](https://i0.wp.com/atlantak.com/wp-content/uploads/2025/10/563999102_18066453389346689_1732511884245717622_n.jpg?resize=245%2C156&ssl=1)



![[비즈카페] “건강하고 행복한 아침을 전합니다”](https://i0.wp.com/atlantak.com/wp-content/uploads/2025/09/park.jpg?resize=245%2C156&ssl=1)



![[비즈카페] 챔블리 ‘아주 송 한의원’ 오픈](https://i0.wp.com/atlantak.com/wp-content/uploads/2025/08/photo_2025-08-13_02-46-54.jpg?resize=245%2C156&ssl=1)
