반응형

Book 29

[전문가를 위한 파이썬] Chapter 5. 일급함수

파이썬의 함수는 일급 함수라고 하는데, 여기서 일급함수의 정의는 무엇일까? 일급함수란? 함수를 다른 변수와 동일하게 다루는 언어를 일급함수를 가졌다고 표현한다. 즉, 프로그래밍 언어에서 함수를 값으로 다룰 수 있는 것이다 ( 함수 스스로를 객체로 취급 하는 것) 정리하자면, 함수를 변수에 담에 유저가 원할때 함수를 호출하는 것이다. 예를 들어 일급 함수를 가진 언어에서는 다른 함수에 매개 변수로 제공하거나, 함수가 함수를 반환할 수 있으며, 변수에 할당할 수 있다. 일급 객체의 정의 ( 아래와 같은 작업을 수행할 수 있는 프로그램 개체 ) - 런타임에 생성할 수 있어야 함 - 데이터 구조체의 변수나 요소에 할당할 수 있어야 함 - 함수 인수로 전달할 수 있어야 함 - 함수 결과로 반환할 수 있어야 함 예..

빅데이터의 탐색 3-2. 쿼리 엔진

1. 데이터 마트 구축의 파이프라인 - 처음에 분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장한다. - 이것은 다수의 텍스트 파일을 읽어 들여 가공하는 부하가 큰 처리가 되기 때문에 HIVE 를 이용한다. - 그리고 완성한 구주화 데이터 데이터를 결합, 집계하고 비정규화 테이블로 데이터 마트에 써서 내보낸다. - 열 지향 스토리지를 이용한 쿼리의 실행에는 Presto를 사용함으로써 실행시간 단축 가능 - Hive 에서 만든 각 테이블의 정보는 Hive 메타스토어라고 불리는 특별한 데이터베이스에 저장된다. 이것은 hive 뿐만 아니라 sql-on-hadoop의 쿼리엔진에서도 공통의 테이블 정보로 참고된다. (메타스토어에 대한 정보) wikidocs.net/28353 위키독스 온라..

[전문가를 위한 파이썬 ] 1장 파이썬 데이터 모델

특별 메서드는 내가 구현한 객체가 다음과 같은 기본적인 언어 구조체를 구현하고 지원하고 사용할수 있게 해준다 - 반복 - 컬렉션 - 속성 접근 - 연산자 오버로딩 - 함수 및 메서드 호출 - 객체 생성 및 제거 - 문자열 표현 및 포맷 - 블록 등 콘텍스트 관리 특별 메서드에 대해서 참고해볼 수 있는 __getitem__ 메서드 - 슬라이싱을 쉽게할 수 있도록 도와준다 https://jinmay.github.io/2019/11/26/python/python-instance-slice/ [파이썬]객체 슬라이싱과 __getitem__ 파이썬의 리스트와 튜플에 를 이용해서 슬라이싱을 해보았을 것이다. 뿐만 아니라 리스트처럼 클래스의 인스턴스 자체도 슬라이싱을 할 수 있도록 만들 수 있다. 이때에 필요한 속성이..

빅데이터의 탐색 2 - 3. 애드 혹 분석과 시각화 도구

- 데이터를 시각화하기 위한 소프트웨어는 여러가지 종류가 있다 1. Jupyter Notebook에 의한 애드 혹 분석 - 노트북에 분석 과정 기록하기 노트북 안에서는 파이썬 스크립트와 외부 명령어를 실행할 수 있으며, 실행 내용은 모두 기록되고 과거로 돌아가서 편집하거나 재실행할 수도 있다. - 마크다운 형식으로 주석을 넣어 모양을 좋게 하거나, 사진 또는 수식을 포함할 수 있다. - 스프레드 시트, BI 도구 없이 크로스 집계결과를 시각화가 가능하다. 1) Matplotlib (노트북 내에서의 시각화) - 과학 기술 계산 분야에서 사용되는 시각화 라이브러리 중 하나 - 복잡한 그래프를 파이썬을 사용하여 생성 - 프로그래밍이 필요하여 시간이 걸리는 단점 존재, 분석과정에서 유사항 그래프를 다시 만들 때..

빅데이터의 탐색 2 - 2. 열 지향 스토리지에 의한 고속화

- 대량의 데이터를 신속하게 집계하려면, 미리 데이터를 집계에 적합한 형태로 변환해야 한다. 1. 데이터베이스의 지연 줄이기 데이터의 양이 증가할 수록 집계하는데 시간이 길어진다. 이는 작업의 효율을 떨어뜨리며, 전체적으로는 모든 작업이 느려지는 원인이 된다. 데이터의 수집단계에서는 위 사항은 우선순위로 고려하지 않아도 되지만, DB( 데이터 레이크, 데이터 웨어하우스 ) 에서 데이터를 추출하여 분석하는 단계에서는 위 문제를 해결하는 것이 매우 중요하다. 1) 데이터의 처리 지연 - 지연이 적은 데이터 마트 작성을 위한 기초 지식 데이터 지연이 적은 데이터베이스를 만드는 방법은 두가지가 있다. 첫째, 모든 데이터를 메모리에 올리는 것 - 가장 간단한 방법이며, 적은양의 데이터를 올리는 것은 큰 문제가 되..

빅데이터 기초지식 1 - 3. BI 도구와 모니터링

- 빅데이터 탐색에 있어 중요한 것은 우선 큰 그림을 파악한 후에 점차 세부사항으로 깊게 들어가는 것이다. 1. 데이터의 모니터링 (프로젝트의 현재 상황 파악) - 모니터링이란 보다 계획적으로 데이터의 변화를 추적해 나가는 것이다. - 데이터의 변화가 예상과 다르다면, 행동을 해야되는 데 여기에는 사람의 판단이 중요 - 데이터로 상황 파악 후, 얻어진 통찰에 따라 세부 사항을 체크해서 문제를 해결해야 한다. 2. 데이터에 근거한 의사결정 (KPI - Key Performance Indicator 모니터링) - KPI 수치 파악을 통해 현재의 수치가 다음 행동에 어떤 영향을 끼칠 것인지 파악하는 것이 중요 3. 변화를 파악하고 세부 사항 이해하기 (BI 도구 활용) - BI 도구를 통해 변화를 파악하고, ..

빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 2)

1. 데이터 분석 기반을 단계적으로 발전 시키기 - 팀과 역할 분담, 스몰 스타트와 확장 - 데이터 분석에 필요한 기술은 다방면에 걸쳐 있기 때문에 주로 팀을 이루어 작업이다 - 데이터 엔지니어 : 시스템의 구축 및 운용, 자동화 등을 담당하는 역할 - 데이터 분석가 : 데이터에서 가치 있는 정보를 추출하는 역할 → 이들은 요구되는 지식뿐만 아니라 사용하는 도구도 다르다. 1 ) 애드혹 분석 및 대시보드 도구 - 애드혹 분석 > 일회성 데이터 분석의 의미를 지님 > sql 쿼리를 직접 작성, 그래프 작성등 대부분 수작업이 애드혹 분석에 포함 > 데이터 레이크웨 데이터 마트를 직접 연결하여 데이터 추출 및 분석 작업 다수 > 쿼리 실행 후 즉시 확인 가능한 대화형 분석 도구사용 2 ) 데이터 마트와 워크 ..

빅데이터 기초지식 1 - 2. 빅데이터 시대의 데이터 분석 기반 ( 1 )

요점 빅데이터 기술과 데이터웨어 하우스의 다른점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다.. 1. 빅데이터의 기술 - 분산 시스템을 활용하여 데이터를 가공하는 구조 1) 데이터 파이프라인 - 데이터를 추출하여 특정 db 등 다른 저장 장치로 옮기는 기술, - 수집 장소, 활용 목표에 따라 변화함, - 간단한 구상에서 복잡하게 여러 개를 조합시켜야할 수도 있어야 함을 고려해야함 2) 데이터 수집 - 데이터 파이프라인의 시작, - 데이터 전송에는 크게 두가지 방법이 존재 벌크형(bulk), 스트리밍 형(streaming) 으로 나뉨. 벌크형 : 이미 존재하는 데이터 추출, 데이터베이스와 서버 등에서 정기적으로 수집 스트리밍형 : 생성되는 데이터를 끊임없이 내보냄, ..

빅데이터 기초지식 1 - 1. 빅데이터의 장착

데이터 엔지니어링 공부의 일환으로 빅데이터를 지탱하는 기술을 시작으로 여러가지 데이터 엔지니어, 분석과 관련된 책을 공부하고자 한다. 0. Note 빅데이터의 주요 역사 - 2011년 까지 : Hadoop 이나 NoSQL 데이터베이스 등 기반 기술의 발전 - 2012년 까지 : 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급 - 2013년 부터 : 스트림 처리나 애드혹(AdHoc) 분석 환경의 확충 1. 빅데이터 취급의 어려움 - 대량의 데이터 처리에 많은 수고와 시간 소요 - 데이터의 처리에 기술적 제약이 존재했음 2. 분산 처리 시스템에 의한 데이터 처리 고속화 - 빅데이터 취급의 어려운 점 극복(대량의 데이터를 한꺼번에 처리하는 것) - 대량의 데이터 활용, 가치 창출 및 의사결정 보편화 - ..

반응형