본문 바로가기

반응형

ML/논문

(3)
[논문 리뷰] Orca: A Distributed Serving System forTransformer-Based Generative Models 안녕하세요, 오늘은 이전에 발표한 vLLM이 사용하는 배치 최적화 기법인 Continous Batching(Iteration Level Batching)을 제시한 논문인 Orca: A Distributed Serving System forTransformer-Based Generative Models에 대한 리뷰를 해보도록 하겠습니다.논문 원본 PDF는 아래와 같습니다.https://www.usenix.org/system/files/osdi22-yu.pdf 본 논문은 22년 07월에 발표되었습니다.Introduction생성 모델을 사용하기 위해 별도의 서비스에 추론 절차를 위임하게 됨.위임받은 서비스는 낮은 대기 시간과 높은 처리량으로 추론 결과를 제공해야 하며, Triton Inference Serve..
[논문 리뷰] Efficient Memory Management for Large Language Model Serving with PagedAttention 이번에는 대표적인 LLM Serving Framework인 vLLM의 기반 논문에 대해 리뷰를 해보겠습니다.논문 원본 링크와 vLLM의 github 링크는 아래와 같습니다.https://arxiv.org/pdf/2309.06180https://github.com/vllm-project/vllm 개요KV 캐시는 LLM의 추론 속도를 올려주는 역할을 수행함.하지만, vLLM 이전의 LLM 추론 프레임 워크는 메모리 관리 정책이 부족해 메모리 낭비가 심했음.PagedAttention과 이를 적용한 vLLM은 2가지의 핵심 키워드로 LLM 추론 시에 메모리를 최적화 시킴OS의 가상 메모리 및 페이징 기법 적용메모리 공유이전 LLM 추론 프레임 워크의 문제점이전 LLM 추론 프레임 워크(논문에서는 Orca와 비교..
[논문 리뷰]Attention is All You Need 안녕하세요, 이번에 준비한 글은 Transformer 아키텍처가 처음 시작된 Attention is All You Need 논문 번역 + 정리본입니다. 복잡한 수식은 제외하고 전체적인 흐름을 파악하는데 집중하였습니다. 논문 본문의 링크는 다음과 같습니다.https://arxiv.org/pdf/1706.03762    개요기존의 시퀀스 변환 모델은 RNN 기반의 Encoder, Decoder로 구성되며, 그 중 Attention 매커니즘을 사용하는 구조가 가장 성능이 뛰어나다.하지만 RNN 기반의 시퀀스 변환 모델은 두가지의 문제가 있음.새 은닉 상태 생성 시 이전 은닉상태를 사용하는 순환적 특성으로 병렬화의 어려움Context Vector의 고정된 크기로 인해 긴 길이의 문장을 처리하는데 성능이 떨어짐해..

반응형