AI & ML & DL(8)
-
Attention Is All You Need (2017, NIPS)
Introduction 원래 RNN 계열을 사용해서 NLP를 했지만, 순차적으로 예측하는 본질적인 이슈로 인하여 계산할 시에 parallel하게 계산이 불가능 하다. 그래서 attention mechanism만을 활용하여 거리와 상관없이 input과 output간의 global dependency를 뽑아내고 parallelization을 훨씬 더 할 수 있는 Transformer라는 모델을 제안한다. Model Architecture Input : Encoder에는 input embedding과 positional encoding을, Decoder에서는 output embedding과 positional encoding을 같이 더한 값이 나온다. Positional encoding은 sine / cosi..
2023.12.19 -
CONVERSATION CHRONICLES: Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations (2023, EMNLP)
Introduction AI 대화형 모델들은 주요 연구 분야중 하나인데, 현재까지 나온 chatbot 모델들은 실제 세계에서 필요한 long-term dialogue context를 제대로 이해하지 못하는 한계를 파악했다. 특히나 현재 chatbot 모델들은 예전에 이야기 했던 context를 무시하고 현재 이야기한 context만을 기반으로 답을 하는 한계도 있다. (이 이야기 단위를 session이라는 용어로 논문에서는 설명하는 것 같다.) 이러한 해결책으로 일관성있는 여러 session들을 한꺼번에 보는 Multi-Session conversation이라는 분야가 제안되었다. 각 session은 time interval 순서대로 일어나는데, 여기서 time interval은 화자끼리의 대화 주제나 ..
2023.12.17