인공지능
서론 언어모델은 다양한 언어를 이해하고 생성하는 데 큰 강점을 지니고 있지만, 특정 언어 환경에서 최적화가 필요할 때가 있다. Qwen2 72B Instruct 모델은 프롬프트 엔지니어링만으로도 한국어를 능숙하게 처리할 수 있지만, 일부 특정 키워드를 제대로 …
문제 상황 나는 서버에 두 개의 GPU를 보유하고 있으며, 이를 활용하여 효율적인 로드밸런싱을 구현하려는 고민을 하고 있다. 현재 서버는 동시 요청 114건을 처리하는 데 약 2분 30초가 소요되며, 이는 H800*1EA GPU 하나만 사용한 결과다. 나는 LLM 추론 A…
現職でLLMエンジニアとして感じたことを率直に書いてみると、 今年1月末に社内で新技術に関するPoCを行う組織が設立され、その部署に異動となりました。 社内では誰も私たちに期待しておらず、「すぐに無くなるチーム」という認識が非常に強かったです。 し…
DARE TIES (Drop And REscale with Trim, Elect Sign & Merge)는 대형 언어 모델(LLM) 병합을 위한 고급 방법론입니다. 이 방법은 여러 모델의 가중치를 효과적으로 결합하여 성능을 유지하거나 향상시키는 것을 목표로 합니다. 각 용어의 의미와 병합 방법…
Scrap : huggingface.co ORPO is a new exciting fine-tuning technique that combines the traditional supervised fine-tuning and preference alignment stages into a single process. This reduces the computational resources and time required for …
예를 들어, "유통시장의"라는 텍스트가 들어오면 다음과 같이 토큰화됩니다: 유통시장의 유통 시장 의 이렇게 되면 "유통시장의"라는 전체 토큰이 인덱스에 저장되고, "유통시장"이라는 토큰은 생성되지 않습니다. 따라서 "유통시장"으로 검색했을 때 원하는…
Marlin은 혼합 자동 회귀 선형 커널(Mixed Auto-Regressive Linear kernel)로, 이름은 지구상에서 가장 빠른 물고기 중 하나인 '청새치(Marlin)'에서 유래되었습니다. 이 커널은 대규모 언어 모델(LLM) 추론을 위해 매우 최적화된 FP16xINT4 행렬 곱셈(matmu…
no module named ' _ctypes' libffi-devel 패키지가 없기 때문에 발생하는 오류입니다. sudo yum install libffi-devel 그 후, Python을 다시 make altinstall 하면 해결 완료. sudo make altinstall no module named ' _sqlite3' Solution. sudo yum instal…
본 글은 https://arxiv.org/pdf/2309.06180.pdf 해당 논문을 참고하여 작성하였습니다. 대규모 언어 모델(LLMs)을 높은 처리량으로 서비스하기 위해서는 한 번에 충분히 많은 요청을 묶어서 처리하는 배치 작업이 필요합니다. 그러나 기존 시스템은 각 요청…
현대의 기술 진보는 많은 분야에서 눈부신 속도로 발전하고 있으며, 특히 인공지능 기술은 그 중심축을 이루고 있습니다. 인공지능의 여러 하위 영역 중에서도 언어 모델은 우리의 생활과 밀접한 관련을 가지고 있으며, 이를 활용한 서비스와 애플리케이션은…
맥 사용자를 위한 메모 이 지침이 여러분에게 작동하는지, 또는 작동하지 않는지 피드백을 제공해 주시기 바랍니다. 현재 언급되지 않은 설치 문제가 있거나, 무엇인가 불명확하거나, 다른 문제가 있는 경우 알려주세요. 중요 사항 대부분의 웹 UI 기능은 ma…
Origin In this short article, I will show how we used LangChain, ElasticSearch, and ChatGPT to provide our customers with a question and answering capability over their knowledge bases. Given the power of LLMs (Large Language Models), this…
RAG RAG(Retriever-Augmented Generation)는 데이터베이스에서 관련 정보를 검색(retrieve)하여 생성(generate)하는 작업을 돕는 기술입니다. 간단한 RAG 모델을 구현하기 위해, 먼저 벡터 데이터베이스와 언어 모델을 준비해야 합니다. 이 예제에서는 Faiss…
Elasticsearch를 사용하여 PDF 문서를 파싱하고, 해당 문서의 내용을 임베딩하여 검색 가능한 형태로 만드는 과정은 여러 단계를 포함합니다. 아래에는 이 과정을 구현하는 방법에 대한 개요와 예제 코드를 제공합니다. 이 예제는 Elasticsearch에 문서를 인…