용바오의 연구실

JGI (Jaypyon General Intelligence)

빅데이터

SAS 업무의 주요 관리 포인트

SAS 업무 관리는 다양한 요소를 포함하며, 효율적인 작업 흐름과 문제 해결을 위해 몇 가지 주요 관리 포인트를 고려해야 합니다: 1. 데이터 관리: 데이터 품질, 데이터 통합, 데이터 클렌징 및 변환, 데이터 저장 및 보안이 중요합니다. 정확한 분석을 위해…

빅데이터 영역의 데이터 표준화를 위한 여정

일반적으로 업무를 인계받았을 때, 그게 마음에 쏙 드는 경우는 많이 없을 것이라고 생각합니다. 사람은 모두 생각이 다르고, 필연적으로 자신의 업무에 대해 고수하는 방향, 관심도, 애정도가 달라지기 때문입니다. 최초에 이 업무영역을 인계받았을 때, 제…

HDFS LDAP와 KERBEROS 인증

문제 : 하둡에서 hive, impala, oozie를 사용할 때, Kerberos 인증을 사용하는데, 이 때, 계정은 LDAP으로 연동되어 사용되는 중이다. 누군가 5회 이상 kinit을 시도하여 LDAP계정이 잠겼고, 이에 따라 해당 계정 자체를 못쓰게 되어 Alteryx상에서 하둡영역…

HDFS에서 AWS S3로 데이터 이관

HDFS에서 Amazon S3로 데이터를 직접 옮기는 가장 일반적인 방법 중 하나는 Apache Hadoop의 distcp 명령을 사용하는 것입니다. distcp는 대용량 데이터를 병렬로 전송할 수 있는 도구로, Hadoop 분산 복사 작업을 수행할 수 있습니다. 다음 단계를 따라 HDF…

HDFS에서 Teradata Native Object Store로 데이터 이관

HDFS에서 Teradata로 데이터를 옮기기 위해서는 일반적으로 Teradata's Data Stream Utility(DSU)나 TPT의 기능을 활용한 방법이 주로 사용됩니다. 하지만 HDFS에서 Teradata의 Native Object Store로 데이터를 옮기는 것으로 바로 옮기기 위해서는 Teradata…

Alteryx Workflow를 Native Python으로 전환 개발

Alteryx 워크플로우를 빠르게 Python으로 전환 개발하려면 다음 단계를 따르면 도움이 됩니다. 1. 워크플로우 이해하기 먼저 Alteryx 워크플로우를 확실히 이해하십시오. Alteryx 워크플로우의 각 도구 및 단계가 어떤 작업을 수행하는지 파악하고 이를 Pyth…

데이터메쉬아키텍쳐

데이터 메쉬 아키텍쳐란? 데이터 메시 아키텍처는 대규모 조직에서 데이터 자산의 선택, 액세스, 공유, 통합 및 관리를 개선하는 새로운 데이터 아키텍처 패러다임입니다. 기존의 데이터 중심 아키텍처와는 달리, 데이터 메시는 도메인 중심의 접근 방식을 …

データメッシュアーキテクチャ、ビックデータプラットフォーム

データメッシュアーキテクチャは、企業がデータとインサイトを効果的に活用し、より迅速に意思決定を行うための最新のアプローチです。これは、分散型のデータ管理とオープンなデータプラットフォームを組み合わせることで、データ活用をサポートする革新的…

Spark vs Airflow vs Alteryx

각 ETL 도구의 특징을 분석하면 다음과 같은 차이점을 발견할 수 있습니다. Spark Job을 통한 ETL: Spark는 대규모 데이터 처리를 위한 인메모리 엔진으로, 빠른 처리 성능을 제공합니다. Spark를 사용한 ETL 작업은 일반적으로 Python, Scala 또는 Java를 …

Cloudera Manager

Cloudera Manager와 관련된 주요 서비스의 핵심 개념을 요약해 드리겠습니다. Cloudera Manager: Hadoop 기반 클러스터를 관리하고 모니터링하는데 사용되는 중앙 집중식 웹 인터페이스 도구입니다. Cloudera Manager를 사용하면 각 서비스의 추가, 통합 및 …

Apache Spark

Apache Spark는 오픈 소스의 클러스터 컴퓨팅 프레임워크로, 대규모 데이터 처리를 위해 설계되었습니다. Spark는 Hadoop과 함께 사용되거나 독립적으로 실행될 수 있으며, 여러 가지 프로그래밍 언어를 지원합니다. Apache Spark의 주요 목표는 빅 데이터를…

Hive, Yarn

Hive는 Hadoop 기반의 데이터 웨어하우스 도구로, SQL과 유사한 쿼리 언어인 HiveQL을 사용하여 대규모 데이터 세트에 대한 데이터 분석을 제공합니다. Hive의 주요 구성 요소는 메타스토어, 컴파일러, 실행 엔진입니다. 사용자가 HiveQL로 보내는 쿼리는 컴…

分散システムでデータを伝達する効率的な方法

分散システム 2つ以上のコンポーネントで構成されているシステム モノリシックアーキテクチャでもサーチエンジンと共に使う場合分散システムとみなす。 データ伝達方法 リモートAPI 一般的なサーバークライエント構造 (CRUD) 比較的に簡単な場合が多い メ…

DBモデルからDB設計への変換

今回はオンライン教育プラットフォームを設計しながらそのプロセスを教えようと思ってます。 DBの論理的モデルを設計する為にまずDBの要求事項を把握して技術する。 要求事項は次のように書かれる。 要求事項 ATTENDEE 受講生は受講生番号で識別する。 本プ…

서버 설정 매뉴얼

서버 방화벽 설정 UFW 활성화 sudo ufw enable #비활성화는 disable하면 된다. UFW 상태 확인 sudo ufw status verbose ------------------------------------------------------------- 상태: 활성 로깅: on (low) 기본 설정: deny (내부로 들어옴), allow …

凝集図

凝集度(Cohesion) 凝集度とは、モジュールに含まれる機能の純度を示す尺度で、モジュールの強度を測定する単位である。ステップが高いほど、純粋で強くて良いモジュールです。モジュール内要素間の関係の親密さに着目して判定する。 暗合的強度 モジュール内…

結合度

結合度(Coupling) 結合度とは、モジュール同士が有する関係の密接さを示す尺度で、ある結合の太さを測定する単位である。ステップが高いほど、関係が弱く緩い結合であり、良いモジュールといえる。モジュール間でデータをどれだけ交換するかに注目して判定す…

アーキテクチャ基本技法

アーキテクチャ基本技術 アーキテクチャ基本技術とは、ソ​​フトウェアアーキテクチャを適切に構築するために必要な基礎原理です。適切にソフトウェアアーキテクチャを構築するには、基礎となるいくつかの原理に基づいて実行する必要があります。ソフトウェア…