AI & ML & DL(8)
-
Convex function의 특징 및 왜 Binary Cross Entropy는 convex 한가?
최근에 머신러닝 부트캠프에 합격해서 머신러닝 개념들을 다시 처음부터 공부하고 있습니다.오랜만에 LR(Logistic Regression), BCE(Binary Cross Entropy) 등을 보기 시작하니 오랫만에 옛날 친구들을 만나는 심정으로 보고 있는데, loss function이 BCE일 때에 아래와 같은 그림이 나온다고 합니다. 여기서 저는 어떻게 Binary Cross Entropy가 convex 한 성질을 가지고 있는가 궁금해졌습니다.일단 BCE를 사용한 cost function은 아래와 같이 정리가 됩니다. 일단 log 값도 있고... y_hat = a(wx+b) 인데, a 는 심지어 sigmoid function 입니다. (그래서 MSE를 사용하면 non-convex 해진다고 하죠...)..
2024.07.01 -
2024.05.14. OpenAI Spring Update 정리
Google I/O가 열리기 전날에 OpenAI에서 Spring Update를 발표한다는 소식을 들었습니다.이에 저도 AI에 대해 관심이 있는지라 라이브 영상을 보고 정리해보았습니다.제가 이해한 내용들은 다음과 같습니다. 1. Desktop version of ChatGPT + WebUI update ChatGPT를 데스크톱 어플리케이션으로도 만들었다고 합니다.또한, 웹에서는 ChatGPT에 대한 경험에 좀 더 몰두할 수 있게 UI 개선이 이루어졌다고 합니다. 2. GPT-4o 라는 새로운 모델을 공개했습니다. 그리고 무료로 열린다고 합니다. 사실상 이번 발표에 핵심 주제입니다. GPT-4o라는 모델을 새로 공개했는데 특징들은 다음과 같습니다. Omnimodel이라는 말에 맞게 Voice + Text +..
2024.05.16 -
[의료모델] Cox Proportional Hazard 모델
일단 처음에 다뤄볼 모델은 Cox Proportional Hazard라는 모델입니다. 왜냐하면 이 모델을 기반으로 제가 산학 프로젝트를 진행했기 때문이고 주로 이 모델을 많이 사용해서 그렇습니다. 일단, 앞서 설명하기 전에 의료데이터에 대해서 알아보도록 하겠습니다. 의료데이터는 주로 time-to-event data 형식을 띄는데 우리가 주로 다루는 데이터 형식이 (X, Y)라면 time-to-event data는 (X, T, E)로 표현이 됩니다. X(covariates)는 환자로부터 관찰된 covariate들을 말하며 아주아주 쉽게 표현하자면 그냥 우리가 아는 X랑 비슷하다고 볼 수 있습니다. 그냥 환자의 상황이나 상태 이런게 들어가지요. (정확하게 이렇게 말할 수 있는 지는 모르겠습니다.....
2023.12.24 -
[MLC] 필수적으로 알아야 할 모델들
전에 MLC 논문을 리뷰했을 때 MLC 문제에서 기본적으로 알아야 할 모델들에 대해서 정리하면 좋겠다곤 생각했습니다. 그래서 이번 글은 MLC 문제를 볼 때 꼭 비교대상으로 넣는 모델들에 대해서 다뤄보겠습니다. 아니 근데 MLC가 뭔데? 앞서 들어가기 전에 MLC 문제가 뭔지부터 보죠. MLC는 multi-label classification의 줄임말로 한 data instance가 어느 label들에 속해 있는지를 보는 겁니다. 간단한 예시를 보여드릴께요. 아래 사진들은 어떤 사진처럼 보이시나요? 지금 위 사진은 각각 개, 고양이 사진으로 한 label로 정의할 수 있습니다. 각각 '개'라는 label에 속한 사진, '고양이'라는 label에 속한 사진으로 볼 수 있겠죠? 이런 문제는 single-la..
2023.12.24 -
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2019, arXiv preprint)
Introduction pre-trained language representation을 활용하는 방법에는 task-specific architecture에 pre-trained representation을 추가적인 feature로 사용하는 (예 : ELMo) feature-based 방법과 task-specific parameter를 덜 쓰되 task에 맞춰서 pre-trained parameter를 전부 fine-tuning하는 (예: GPT) fine-tuning 방법이 있다. 두 방법론 모두 pre-training시에 unidirectional language model에 같은 objective function을 활용한다고 한다. 이 논문에서는 현존하는 방법론들이 pre-trained repres..
2023.12.19 -
Graph Transformer Networks (2019, NIPS)
Introduction GNN은 homogeneous하고 fixed graph만 다룬다. 그래서 noise가 심하여 missing / spurious connection이 있는 graph에서는 좋은 성능을 안 보인다. 또한 heterogeneous graph에서는 작동을 할 수 없어서 단순하게 node / edge type들을 무시하여 homogeneous graph로 취급하는 경우도 있는데 이러면 suboptimal 한 결과만 낳는다. 이러한 문제를 해결하고자 주어진 heterogeneous graph에서 각각 task에 알맞는 meta-path graph들을 찾고 이에 graph convolution을 실행하여 node-representation들도 같이 학습할 수 있는 GTN을 소개하고자 한다. G..
2023.12.19