AI & ML & DL/Paper Review(4)
-
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2019, arXiv preprint)
Introduction pre-trained language representation을 활용하는 방법에는 task-specific architecture에 pre-trained representation을 추가적인 feature로 사용하는 (예 : ELMo) feature-based 방법과 task-specific parameter를 덜 쓰되 task에 맞춰서 pre-trained parameter를 전부 fine-tuning하는 (예: GPT) fine-tuning 방법이 있다. 두 방법론 모두 pre-training시에 unidirectional language model에 같은 objective function을 활용한다고 한다. 이 논문에서는 현존하는 방법론들이 pre-trained repres..
2023.12.19 -
Graph Transformer Networks (2019, NIPS)
Introduction GNN은 homogeneous하고 fixed graph만 다룬다. 그래서 noise가 심하여 missing / spurious connection이 있는 graph에서는 좋은 성능을 안 보인다. 또한 heterogeneous graph에서는 작동을 할 수 없어서 단순하게 node / edge type들을 무시하여 homogeneous graph로 취급하는 경우도 있는데 이러면 suboptimal 한 결과만 낳는다. 이러한 문제를 해결하고자 주어진 heterogeneous graph에서 각각 task에 알맞는 meta-path graph들을 찾고 이에 graph convolution을 실행하여 node-representation들도 같이 학습할 수 있는 GTN을 소개하고자 한다. G..
2023.12.19 -
Attention Is All You Need (2017, NIPS)
Introduction 원래 RNN 계열을 사용해서 NLP를 했지만, 순차적으로 예측하는 본질적인 이슈로 인하여 계산할 시에 parallel하게 계산이 불가능 하다. 그래서 attention mechanism만을 활용하여 거리와 상관없이 input과 output간의 global dependency를 뽑아내고 parallelization을 훨씬 더 할 수 있는 Transformer라는 모델을 제안한다. Model Architecture Input : Encoder에는 input embedding과 positional encoding을, Decoder에서는 output embedding과 positional encoding을 같이 더한 값이 나온다. Positional encoding은 sine / cosi..
2023.12.19 -
CONVERSATION CHRONICLES: Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations (2023, EMNLP)
Introduction AI 대화형 모델들은 주요 연구 분야중 하나인데, 현재까지 나온 chatbot 모델들은 실제 세계에서 필요한 long-term dialogue context를 제대로 이해하지 못하는 한계를 파악했다. 특히나 현재 chatbot 모델들은 예전에 이야기 했던 context를 무시하고 현재 이야기한 context만을 기반으로 답을 하는 한계도 있다. (이 이야기 단위를 session이라는 용어로 논문에서는 설명하는 것 같다.) 이러한 해결책으로 일관성있는 여러 session들을 한꺼번에 보는 Multi-Session conversation이라는 분야가 제안되었다. 각 session은 time interval 순서대로 일어나는데, 여기서 time interval은 화자끼리의 대화 주제나 ..
2023.12.17