전체 글 85

Data 분리(train, validation dataset)- train_ratio=0.9의미

np.random.rand() 함수는 0부터 1 사이의 균일 분포에서 랜덤한 값을 생성합니다. train_ratio를 0.9로 설정하면 약 90%의 확률로 훈련 데이터에 할당되고, 약 10%의 확률로 검증 데이터에 할당됩니다. 무작위로 값을 생성하기 때문에 실행할 때마다 실제로 할당되는 비율이 약간씩 다를 수 있습니다. train_ratio = 0.9 # Set the desired ratio of training data for label_name in label_names: label_dir = os.path.join(root_dir, label_name) files = os.listdir(label_dir) np.random.shuffle(files) # Shuffle the files random..

Development/Python 2023.07.18

[DP-900] Azure에서 분석 워크로드 설명 - III

마이크로 소프트의 파워 BI 데이터 시각화 파워 BI의 기능 Microsoft Power BI는 데이터 분석가가 비즈니스 사용자가 사용할 대화형 데이터 시각화를 빌드하는 데 사용할 수 있는 도구 및 서비스 모음. 데이터 시각화 솔루션을 만드는 일반적인 워크플로는 다양한 데이터 원본에서 데이터를 가져오고, 분석 데이터 모델에서 이러한 원본의 데이터를 결합 및 구성하고, 대화형 데이터 시각화를 포함하는 보고서를 만들 수 있는 Microsoft Windows 애플리케이션인 Power BI Desktop을 사용 가능. 데이터 모델 및 보고서를 만든 후에는 비즈니스 사용자가 보고서를 게시하고 상호 작용할 수 있는 클라우드 서비스인 Power BI 서비스에 게시 가능. 웹 브라우저를 사용하여 서비스에서 직접 몇 가..

[DP-900] Azure에서 분석 워크로드 설명 - II

실시간 데이터 분석을 위한 고려 사항 배치 데이터와 스트리밍 데이터의 차이점 데이터 처리는 프로세스를 통해 원시 데이터를 의미 있는 정보로 변환하는 것. 데이터를 처리하는 일반적인 방법에는 두 가지가 있음. 배치 처리 - 단일 작업에서 함께 처리하기 전에 여러 데이터 레코드를 수집하고 저장. 스트림 처리 - 데이터 원본을 지속적으로 모니터링하고 새 데이터 이벤트가 발생할 때 실시간으로 처리. 배치 처리 배치 처리에서는 새로 도착하는 데이터 요소가 수집 및 저장되고 전체 그룹이 일괄 처리로 함께 처리. 각 그룹을 처리하는 정확한 시점을 여러 가지 방법으로 결정 가능. 배치 처리의 장점 - 많은 양의 데이터를 편리한 시간에 처리할 수 있음. - 컴퓨터 또는 시스템이 유휴 상태일 때(예: 야간) 또는 사용량이..

[DP-900] Azure에서 분석 워크로드 설명 - I

최신 데이터 웨어하우스의 일반적인 요소 데이터 수집 및 처리에 대한 고려 사항 대규모 데이터 웨어하우징 아키텍처는 이를 구현하는 데 사용되는 특정 기술과 마찬가지로 다를 수 있으나, 일반적으로 다음과 같은 요소가 포함됨. 데이터 웨어하우징 아키텍처 데이터 수집 및 처리 - 하나 이상의 트랜잭션 데이터 저장소, 파일, 실시간 스트림 또는 기타 원본의 데이터가 데이터 레이크 또는 관계형 데이터 웨어하우스에 로드됨. - 로드 작업에는 일반적으로 ETL(추출, 변환 및 로드) 또는 ELT(추출, 로드 및 변환) 프로세스가 포함되며, 분석을 위해 데이터를 정리, 필터링 및 재구성함. - ETL 프로세스에서 데이터는 분석 저장소에 로드되기 전에 변환되고 ELT 프로세스에서는 데이터가 저장소에 복사된 다음 변환됨...

[DP-900] Azure에서 비관계형 데이터 작업에 대한 고려 사항 설명

Azure 스토리지의 기능 Azure Blob 스토리지 Azure Blob 스토리지는 클라우드에서 매우 많은 양의 비정형 데이터를 Blob(이진 대형 개체)로 저장할 수 있는 서비스. Blob은 데이터 파일을 클라우드 기반 스토리지에 최적화된 형식으로 저장하는 효율적인 방법. 애플리케이션은 Azure Blob Storage API를 사용하여 데이터를 읽고 쓰기 가능. Azure Storage 계정에서 Blob을 컨테이너에 저장. 컨테이너는 관련 Blob을 함께 그룹화하는 편리한 방법을 제공. 컨테이너 수준에서 컨테이너 내에서 Blob을 읽고 쓸 수 있는 사용자를 제어 가능. 컨테이너 내에서 Blob을 디스크 파일 시스템에 있는 파일과 비슷하게 가상 폴더 계층 구조로 구성 가하지만 기본적으로 이러한 폴더는..

[DP-900] Azure에서 관계형 데이터에 대한 고려 사항 - II

Azure 관계형 데이터베이스 서비스 Azure SQL Database, Azure SQL을 포함한 Azure SQL 제품군에 대한 설명 Azure SQL은 Azure의 Microsoft SQL Server 기반 데이터베이스 서비스 제품군을 통칭하는 용어임. Azure VMs(Virtual Machines)의 SQL Server SQL Server가 설치된 Azure에서 실행되는 가상 머신임. VM이 사용되었기 때문에 이 옵션은 Azure에서 컴퓨팅, 스토리지, 네트워킹의 하드웨어 인프라를 가상화하는 IaaS(Infrastructure-as-a-Service) 솔루션임. 리프트 앤 시프트 방식으로 기존 온-프레미스 SQL Server 설치를 클라우드로 마이그레이션하는 데 적합한 옵션. Azure SQL ..

[DP-900] Azure에서 관계형 데이터에 대한 고려 사항 - I

관계형 데이터 관계형 데이터의 특징 관계형 데이터베이스에서는 실제 세계의 엔터티 컬렉션을 테이블로 모델링함. 엔터티는 정보를 기록할 대상이면 무엇이든 될 수 있으며, 주로 중요한 개체나 이벤트를 엔터티라고 함. 테이블에는 행이 포함되며, 각 행은 엔터티의 단일 인스턴스를 나타냄. 관계형 테이블은 정형 데이터를 위한 형식이며, 테이블의 각 행은 동일한 열을 가짐. 경우에 따라 값이 필요하지 않은 열이 있을 수도 있음. 테이블을 정의할 때 사용할 수 있는 데이터 형식은 사용 중인 데이터베이스 시스템에 따라 정해짐. ANSI(American National Standards Institute)에 의해 정의된 표준 데이터 형식은 대부분의 데이터베이스 시스템에서 지원됨. 관계형 데이터 정규화와 정규화가 사용되는..

[DP-900] 핵심 데이터 개념 II

일반적인 데이터 처리 트랜잭션 데이터 처리 트랜잭션 데이터 처리 시스템은 대부분의 사람들이 비즈니스 컴퓨팅의 기본 기능이라고 생각하는 시스템임. 트랜잭션 시스템에서 수행하는 작업을 종종 OLTP(온라인 트랜잭션 처리)라고 함. OLTP 솔루션은 데이터 스토리지가 읽기 및 쓰기 작업에 최적화된 데이터베이스 시스템을 사용하여, 데이터 레코드가 생성, 검색, 업데이트, 삭제되는(CRUD 작업) 트랜잭션 워크로드를 지원하고, 데이터베이스에 저장된 데이터의 무결성을 보장되도록 트랜잭션 방식으로 적용. OLTP 시스템은 ACID(원자성, 일관성, 격리, 내구성) 의미 체계를 지원하는 트랜잭션을 적용. 원자성 – 각 트랜잭션은 완전히 성공하거나 완전히 실패하는 하나의 단위로 취급. 일관성 – 트랜잭션은 데이터베이스로..

[DP-900] 핵심 데이터 개념 - I

데이터를 나타내는 방법 데이터는 정형 데이터, 반정형 데이터, 비정형 데이터 총 3가지로 구분 가능. 정형 데이터 정형 데이터는 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터. 정형 데이터의 스키마는 일반적으로 표 형식. 데이터는 데이터 엔터티의 각 인스턴스를 나타내는 행과 해당 엔터티의 특성을 나타내는 열로 이루어진 하나 이상의 테이블로 표현됨. 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장됨. 정형 데이터 예시 반정형 데이터 반정형 데이터는 일부 구조를 갖지만 엔터티 인스턴스 간에 약간의 변동을 허용하는 데이터. JSON(JavaScript Object Notation)은 반정형 데이터의 가장 일반적인 형..

[DP-900]Microsoft Azure Data Fundamentals 개념 요구 사항

Microsoft Azure Data Fundamentals (DP-900) 개념 요구 사항 핵심 데이터 개념 설명(25~30%) 1. 데이터를 나타내는 방법 정형 데이터 반정형 데이터 비정형 데이터 2. 데이터 스토리지 옵션 데이터 파일의 일반적인 형식 데이터베이스 유형 3. 일반적인 데이터 처리 트랜잭션 데이터 처리 특징 분석 데이터 처리 특징 4. 데이터 처리에 대한 역할 및 책임 데이터베이스 관리자의 역할과 책임 데이터 엔지니어의 역할과 책임 데이터 분석가의 역할과 책임 Azure에서 관계형 데이터에 대한 고려 사항 식별(20~25%) 1. 관계형 데이터 관계형 데이터의 특징 정규화와 정규화가 사용되는 이유 일반적인 SQL 이해 일반적인 데이터베이스 객체 이해 2. Azure 관계형 데이터베이스 ..