현재 참여하고 있는 프로젝트에서는 glue 를 사용하여 db 에서 s3에 기록한다.
db 에서 s3 로 데이터를 읽고 쓰여지는 것을 확인할 수 있는 중요한 메트릭이다.
- ETL data movement:
In the ETL Data Movement profile, the bytes are read fairly quickly by all the executors in the first stage that completes within the first six minutes. However, the total job execution time is around one hour, mostly consisting of the data writes.
-> ETL data movement 프로파일에서, 바이트들은 첫 스테이지를 완료하는 모든 excutor로 부터 6분 안에 빠르게 읽습니다. 그러나 모든 잡 excution 시간은 대부분 데이터를 읽는 과정으로 구성되어 있어 한시간 정도 걸립니다.
그 중
- glue.driver.s3.filesystem.write_bytes
- glue.executorId.s3.filesystem.write_bytes
- glue.ALL.s3.filesystem.write_bytes
The number of bytes written to Amazon S3 by the driver, an executor identified by executorId, or ALL executors since the previous report (aggregated by the AWS Glue Metrics Dashboard as the number of bytes written during the previous minute).
드라이버, excutorid로 식별되는 excutor 또는 이전 보고 이후의 모든 excutor 들로부터 많은 수의 바이트들이 s3에 쓰여진다.이 값은 aws glue metric 대시보드에서 이전 시간동안 쓰여진 바이트의 수로 집계된다.
Valid dimensions: JobName, JobRunId, and Type (gauge).
유요한 dimensions: job name, job runid, 타입(게이지)
Valid Statistics: SUM. This metric is a delta value from the last reported value, so on the AWS Glue Metrics Dashboard a SUM statistic is used for aggregation. The area under the curve on the AWS Glue Metrics Dashboard can be used to visually compare bytes written by two different job runs.
유효한 통계 : sum. 이 메트릭은 마지막으로 보고된 value로부터 증분된 메트릭이다. 이 value 는 aws glue metrics 대시보드에서 sum 통계로 집계되었다. aws glue metrics 대시보드의 곡선아래 영역은 두개의 다른 잡이 돌아간 이후로부터 시각적 비교가 가능하다.
Unit: Bytes
Can be used to monitor:
ETL data movement.
Job progress.
Job bookmark issues (data processed, reprocessed, and skipped).
Comparison of reads to ingestion rate from external data sources.
Variance across job runs.
Some ways to use the data:
DPU capacity planning.
Setting alarms for large spikes or dips in data read for job runs and job s
- glue.driver.s3.filesystem.read_bytes
- glue.executorId.s3.filesystem.read_bytes
- glue.ALL.s3.filesystem.read_bytes
The number of bytes read from Amazon S3 by the driver, an executor identified by executorId, or ALL executors since the previous report (aggregated by the AWS Glue Metrics Dashboard as the number of bytes read during the previous minute).
드라이버, excutor id 로 식별되는 excutor 또는 모든 이전 보고 이후의 all executor 를 통해 s3로 읽어들여지는 바이트의 수이다.
Valid dimensions: JobName, JobRunId, and Type (gauge).
유효한 dimensions : job 이름, job runid 그리고 타입(게이지)
Valid Statistics: SUM. This metric is a delta value from the last reported value, so on the AWS Glue Metrics Dashboard a SUM statistic is used for aggregation. The area under the curve on the AWS Glue Metrics Dashboard can be used to visually compare bytes read by two different job runs.
유효한 통계 : sum. 이 메트릭은 마지막으로 보고된 value로부터 증분된 메트릭이다. 이 value 는 aws glue metrics 대시보드에서 sum 통계로 집계되었다. aws glue metrics 대시보드의 곡선아래 영역은 두개의 다른 잡이 돌아간 이후로부터 시각적 비교가 가능하다.
Unit: Bytes.
Can be used to monitor:
ETL data movement.
Job progress.
Job bookmark issues (data processed, reprocessed, and skipped).
Comparison of reads to ingestion rate from external data sources.
Variance across job runs.
Resulting data can be used for:
DPU capacity planning.
Setting alarms for large spikes or dips in data read for job runs and job stages.