용바오의 연구실

JGI (Jaypyon General Intelligence)

인공지능

한국형 언어모델 서비스의 제작: 언어모델의 토크나이저 조작

서론 언어모델은 다양한 언어를 이해하고 생성하는 데 큰 강점을 지니고 있지만, 특정 언어 환경에서 최적화가 필요할 때가 있다. Qwen2 72B Instruct 모델은 프롬프트 엔지니어링만으로도 한국어를 능숙하게 처리할 수 있지만, 일부 특정 키워드를 제대로 …

GPU 로드밸런싱 문제 해결 사례 분석

문제 상황 나는 서버에 두 개의 GPU를 보유하고 있으며, 이를 활용하여 효율적인 로드밸런싱을 구현하려는 고민을 하고 있다. 현재 서버는 동시 요청 114건을 처리하는 데 약 2분 30초가 소요되며, 이는 H800*1EA GPU 하나만 사용한 결과다. 나는 LLM 추론 A…

現職でLLMエンジニアとして感じたことを率直に書いてみる (LLM 엔지니어링을 하며 느낀점)

現職でLLMエンジニアとして感じたことを率直に書いてみると、 今年1月末に社内で新技術に関するPoCを行う組織が設立され、その部署に異動となりました。 社内では誰も私たちに期待しておらず、「すぐに無くなるチーム」という認識が非常に強かったです。 し…

DARE TIES

DARE TIES (Drop And REscale with Trim, Elect Sign & Merge)는 대형 언어 모델(LLM) 병합을 위한 고급 방법론입니다. 이 방법은 여러 모델의 가중치를 효과적으로 결합하여 성능을 유지하거나 향상시키는 것을 목표로 합니다. 각 용어의 의미와 병합 방법…

Fine tuning with ORPO

Scrap : huggingface.co ORPO is a new exciting fine-tuning technique that combines the traditional supervised fine-tuning and preference alignment stages into a single process. This reduces the computational resources and time required for …

ElasticSearch에서의 Lexical Search와 Nori Tokenizer의 구체적인 쓰임

예를 들어, "유통시장의"라는 텍스트가 들어오면 다음과 같이 토큰화됩니다: 유통시장의 유통 시장 의 이렇게 되면 "유통시장의"라는 전체 토큰이 인덱스에 저장되고, "유통시장"이라는 토큰은 생성되지 않습니다. 따라서 "유통시장"으로 검색했을 때 원하는…

Marlin

Marlin은 혼합 자동 회귀 선형 커널(Mixed Auto-Regressive Linear kernel)로, 이름은 지구상에서 가장 빠른 물고기 중 하나인 '청새치(Marlin)'에서 유래되었습니다. 이 커널은 대규모 언어 모델(LLM) 추론을 위해 매우 최적화된 FP16xINT4 행렬 곱셈(matmu…

On-Premise sLLM 개발 환경 구축 간 발생한 에러 정리

no module named ' _ctypes' libffi-devel 패키지가 없기 때문에 발생하는 오류입니다. sudo yum install libffi-devel 그 후, Python을 다시 make altinstall 하면 해결 완료. sudo make altinstall no module named ' _sqlite3' Solution. sudo yum instal…

vLLM : Efficient Memory Management for Large Language Model Serving with PagedAttention 리뷰

본 글은 https://arxiv.org/pdf/2309.06180.pdf 해당 논문을 참고하여 작성하였습니다. 대규모 언어 모델(LLMs)을 높은 처리량으로 서비스하기 위해서는 한 번에 충분히 많은 요청을 묶어서 처리하는 배치 작업이 필요합니다. 그러나 기존 시스템은 각 요청…

RAG(Retrieval-Augmented Generation)를 위한 Elastic Search Engine 구현 (부제 : Langchain으로부터 독립해보자!)

현대의 기술 진보는 많은 분야에서 눈부신 속도로 발전하고 있으며, 특히 인공지능 기술은 그 중심축을 이루고 있습니다. 인공지능의 여러 하위 영역 중에서도 언어 모델은 우리의 생활과 밀접한 관련을 가지고 있으며, 이를 활용한 서비스와 애플리케이션은…

Mac M3 Silicon 사용자를 위한 Stable Diffusion Web UI 설치 가이드

맥 사용자를 위한 메모 이 지침이 여러분에게 작동하는지, 또는 작동하지 않는지 피드백을 제공해 주시기 바랍니다. 현재 언급되지 않은 설치 문제가 있거나, 무엇인가 불명확하거나, 다른 문제가 있는 경우 알려주세요. 중요 사항 대부분의 웹 UI 기능은 ma…

20240214.Building an information retrieval app using LangChain and ElasticSearch

Origin In this short article, I will show how we used LangChain, ElasticSearch, and ChatGPT to provide our customers with a question and answering capability over their knowledge bases. Given the power of LLMs (Large Language Models), this…

RAG

RAG RAG(Retriever-Augmented Generation)는 데이터베이스에서 관련 정보를 검색(retrieve)하여 생성(generate)하는 작업을 돕는 기술입니다. 간단한 RAG 모델을 구현하기 위해, 먼저 벡터 데이터베이스와 언어 모델을 준비해야 합니다. 이 예제에서는 Faiss…

Elastic Search , 그리고 langchain

Elasticsearch를 사용하여 PDF 문서를 파싱하고, 해당 문서의 내용을 임베딩하여 검색 가능한 형태로 만드는 과정은 여러 단계를 포함합니다. 아래에는 이 과정을 구현하는 방법에 대한 개요와 예제 코드를 제공합니다. 이 예제는 Elasticsearch에 문서를 인…