2024. 5. 16. 05:43ㆍAI & ML & DL/정리
Google I/O가 열리기 전날에 OpenAI에서 Spring Update를 발표한다는 소식을 들었습니다.
이에 저도 AI에 대해 관심이 있는지라 라이브 영상을 보고 정리해보았습니다.
제가 이해한 내용들은 다음과 같습니다.
1. Desktop version of ChatGPT + WebUI update
ChatGPT를 데스크톱 어플리케이션으로도 만들었다고 합니다.
또한, 웹에서는 ChatGPT에 대한 경험에 좀 더 몰두할 수 있게 UI 개선이 이루어졌다고 합니다.
2. GPT-4o 라는 새로운 모델을 공개했습니다. 그리고 무료로 열린다고 합니다.
사실상 이번 발표에 핵심 주제입니다. GPT-4o라는 모델을 새로 공개했는데 특징들은 다음과 같습니다.
- Omnimodel이라는 말에 맞게 Voice + Text + Vision을 섞어서 활용할 수 있습니다.
- GPT-4에 비해서 빠르면서 무료로 제공된다고 합니다.
- 50가지 언어로도 가능합니다.
- GPT-4o의 API도 공개할 건데 두 배 더 빠르고 비용도 절반정도 든다고 합니다.
그리고 실제 데모들을 시연하면서 추가적으로 어떤 기능들이 가능한지도 설명해주었는데, 각 데모별로 어떤 기능들이 있는지는 다음과 같습니다.
2-1. Voice Dialogue Demo (GPT-4o와 말로써 대화하는 장면, 이야기를 읽어달라고 부탁함.)
- Real-time response 및 response 생성 중에 끼여들어 말하는게 가능합니다.
- 목소리에 감정 표현 및 감정을 담아서 목소리를 내는게 가능합니다.
- 여러명이 이야기 및 명령을 내려도 그걸 다 이해하는게 가능합니다.
- 노래도 가능해보입니다.
2-2. Video Dialgoue Demo (GPT-4o와 목소리로 대화하다가 영상을 틀어 수식을 적고 이를 어떻게 풀지 힌트를 달라 부탁함.)
- 카메라를 통해서 보여주며 서로 소통이 가능합니다.
- OCR도 가능합니다. 하트 같은 이모티콘 및 모형도 이해할 수 있습니다.
2-3. Coding related Dialgoue Demo (GPT-4o에게 코드와 화면을 공유해서 코드 관련 이야기를 나눠봄.)
- 컴퓨터 내부의 코드를 복붙해서 GPT-4o에게 보내주고 GPT-4o는 함수 단위로도 요약 및 설명하는게 가능합니다.
- 또한 화면을 공유하면서 도표를 보여주었는데, GPT-4o는 그걸 이해하고 요약 및 해석하는 것도 보여주었습니다.
2-4. Translation Demo (이 부분은 청중들이 한 번 보여달라해서 보여준 데모입니다.)
- 번역기로 활동하라 명령한 상태에서, 영어와 이탈리아어 음성을 받았을 때 서로 다른 언어로 말해서 통역하는 걸 보여주었습니다.
2-5. Emotion Recognition Demo (이 부분도 청중들이 한 번 보여달라해서 보여준 데모입니다.)
- 얼굴 사진을 통해서 해당 사람이 느끼는 감정을 판단해주는 것도 보여주었습니다.
이렇게 정리할 수 있습니다. (제가 영어 듣고 이해한대로 적은지라 좀 틀릴 수는 있습니다. 지적해주시면 감사드리겠습니다!)
이에 대한 제 생각을 말해보면... 와 AI 분야는 제가 생각한 그 이상으로 매우 발전한 것 같습니다.
영상을 보면서 계속 놀랐습니다. 제가 아는 AI 모델들은 이렇게 대답을 빠르게, 그리고 똑똑하게 답변할 줄 모르는 얘들이었는데, 영상에서 보여준 GPT-4o는 답변도 매우 빠르면서도 정확하게 답변했었습니다.
또한, GPT-4o는 Text에만 국한되지 않고 Vision + Voice도 포괄하여 다루었던 점도 매우 인상적이었습니다. 데모에서 GPT-4o가 Text -> Voice, Vision -> Text -> Voice 이렇게 여러 도메인을 왔다갔다하면서 사람들과 서로 이야기하면서 유저들이 원하는 바를 이끌어내는데, 그렇게 자연스럽게 도메인들을 왔다갔다하는 것도 매우 신기했습니다. 이러한 점들은 multi-modal learning에 대해서 공부하는 사람들이라면 좀 더 재밌게 보았을 것 같습니다.
아무튼 제가 느낀바를 정리하자면 이번 발표는 OpenAI가 제대로 Google에게 한 방을 먹인 것 같습니다. 다음날 Google I/O를 준비하는 입장이라면 매우 화가 날 것 같은 발표였습니다. 다음에는 Google I/O도 한 번 보고 정리해보겠습니다. 대강보니 Google I/O에서도 이와 비슷한 AI를 준비한 것 같더라구요.
'AI & ML & DL > 정리' 카테고리의 다른 글
Convex function의 특징 및 왜 Binary Cross Entropy는 convex 한가? (0) | 2024.07.01 |
---|---|
[의료모델] Cox Proportional Hazard 모델 (0) | 2023.12.24 |
[MLC] 필수적으로 알아야 할 모델들 (0) | 2023.12.24 |