한국형 언어모델 서비스의 제작: 언어모델의 토크나이저 조작

인공지능

서론 언어모델은 다양한 언어를 이해하고 생성하는 데 큰 강점을 지니고 있지만, 특정 언어 환경에서 최적화가 필요할 때가 있다. Qwen2 72B Instruct 모델은 프롬프트 엔지니어링만으로도 한국어를 능숙하게 처리할 수 있지만, 일부 특정 키워드를 제대로 …

2024-07-08

GPU 로드밸런싱 문제 해결 사례 분석

인공지능

문제 상황 나는 서버에 두 개의 GPU를 보유하고 있으며, 이를 활용하여 효율적인 로드밸런싱을 구현하려는 고민을 하고 있다. 현재 서버는 동시 요청 114건을 처리하는 데 약 2분 30초가 소요되며, 이는 H800*1EA GPU 하나만 사용한 결과다. 나는 LLM 추론 A…

2024-06-09

現職でLLMエンジニアとして感じたことを率直に書いてみる (LLM 엔지니어링을 하며 느낀점)

인공지능

現職でLLMエンジニアとして感じたことを率直に書いてみると、今年1月末に社内で新技術に関するPoCを行う組織が設立され、その部署に異動となりました。社内では誰も私たちに期待しておらず、「すぐに無くなるチーム」という認識が非常に強かったです。し…

2024-05-21

DARE TIES

인공지능

DARE TIES (Drop And REscale with Trim, Elect Sign & Merge)는 대형 언어 모델(LLM) 병합을 위한 고급 방법론입니다. 이 방법은 여러 모델의 가중치를 효과적으로 결합하여 성능을 유지하거나 향상시키는 것을 목표로 합니다. 각 용어의 의미와 병합 방법…

2024-05-20

Fine tuning with ORPO

인공지능

Scrap : huggingface.co ORPO is a new exciting fine-tuning technique that combines the traditional supervised fine-tuning and preference alignment stages into a single process. This reduces the computational resources and time required for …

2024-04-26

ElasticSearch에서의 Lexical Search와 Nori Tokenizer의 구체적인 쓰임

인공지능

예를 들어, "유통시장의"라는 텍스트가 들어오면 다음과 같이 토큰화됩니다: 유통시장의 유통 시장 의 이렇게 되면 "유통시장의"라는 전체 토큰이 인덱스에 저장되고, "유통시장"이라는 토큰은 생성되지 않습니다. 따라서 "유통시장"으로 검색했을 때 원하는…

2024-04-21

Marlin

인공지능

Marlin은 혼합 자동 회귀 선형 커널(Mixed Auto-Regressive Linear kernel)로, 이름은 지구상에서 가장 빠른 물고기 중 하나인 '청새치(Marlin)'에서 유래되었습니다. 이 커널은 대규모 언어 모델(LLM) 추론을 위해 매우 최적화된 FP16xINT4 행렬 곱셈(matmu…

2024-04-05

On-Premise sLLM 개발 환경 구축 간 발생한 에러 정리

인공지능

no module named ' _ctypes' libffi-devel 패키지가 없기 때문에 발생하는 오류입니다. sudo yum install libffi-devel 그 후, Python을 다시 make altinstall 하면 해결 완료. sudo make altinstall no module named ' _sqlite3' Solution. sudo yum instal…

2024-04-03

vLLM : Efficient Memory Management for Large Language Model Serving with PagedAttention 리뷰

인공지능

본 글은 https://arxiv.org/pdf/2309.06180.pdf 해당 논문을 참고하여 작성하였습니다. 대규모 언어 모델(LLMs)을 높은 처리량으로 서비스하기 위해서는 한 번에 충분히 많은 요청을 묶어서 처리하는 배치 작업이 필요합니다. 그러나 기존 시스템은 각 요청…

2024-03-28

RAG(Retrieval-Augmented Generation)를 위한 Elastic Search Engine 구현 (부제 : Langchain으로부터 독립해보자!)

인공지능

현대의 기술 진보는 많은 분야에서 눈부신 속도로 발전하고 있으며, 특히 인공지능 기술은 그 중심축을 이루고 있습니다. 인공지능의 여러 하위 영역 중에서도 언어 모델은 우리의 생활과 밀접한 관련을 가지고 있으며, 이를 활용한 서비스와 애플리케이션은…

#RAG #RetrievalQA #Reciprocal #Rank #Fusion #RRF #LLM #sLLM #LangChain

2024-03-09

Mac M3 Silicon 사용자를 위한 Stable Diffusion Web UI 설치 가이드

인공지능

맥 사용자를 위한 메모 이 지침이 여러분에게 작동하는지, 또는 작동하지 않는지 피드백을 제공해 주시기 바랍니다. 현재 언급되지 않은 설치 문제가 있거나, 무엇인가 불명확하거나, 다른 문제가 있는 경우 알려주세요. 중요 사항 대부분의 웹 UI 기능은 ma…

2024-02-19

20240214.Building an information retrieval app using LangChain and ElasticSearch

인공지능

Origin In this short article, I will show how we used LangChain, ElasticSearch, and ChatGPT to provide our customers with a question and answering capability over their knowledge bases. Given the power of LLMs (Large Language Models), this…

2024-02-14

RAG

인공지능

RAG RAG(Retriever-Augmented Generation)는 데이터베이스에서 관련 정보를 검색(retrieve)하여 생성(generate)하는 작업을 돕는 기술입니다. 간단한 RAG 모델을 구현하기 위해, 먼저 벡터 데이터베이스와 언어 모델을 준비해야 합니다. 이 예제에서는 Faiss…

2024-02-08

Elastic Search , 그리고 langchain

인공지능

Elasticsearch를 사용하여 PDF 문서를 파싱하고, 해당 문서의 내용을 임베딩하여 검색 가능한 형태로 만드는 과정은 여러 단계를 포함합니다. 아래에는 이 과정을 구현하는 방법에 대한 개요와 예제 코드를 제공합니다. 이 예제는 Elasticsearch에 문서를 인…

용바오의 연구실

JGI (Jaypyon General Intelligence)

인공지능

한국형 언어모델 서비스의 제작: 언어모델의 토크나이저 조작

GPU 로드밸런싱 문제 해결 사례 분석

現職でLLMエンジニアとして感じたことを率直に書いてみる (LLM 엔지니어링을 하며 느낀점)

DARE TIES

Fine tuning with ORPO

ElasticSearch에서의 Lexical Search와 Nori Tokenizer의 구체적인 쓰임

Marlin

On-Premise sLLM 개발 환경 구축 간 발생한 에러 정리

vLLM : Efficient Memory Management for Large Language Model Serving with PagedAttention 리뷰

RAG(Retrieval-Augmented Generation)를 위한 Elastic Search Engine 구현 (부제 : Langchain으로부터 독립해보자!)

Mac M3 Silicon 사용자를 위한 Stable Diffusion Web UI 설치 가이드

20240214.Building an information retrieval app using LangChain and ElasticSearch

RAG

Elastic Search , 그리고 langchain