[Spark] EMR Spark 재시작 하기 스파크의 설정 변경 등을 하면 종종 다시 시작할 일이 있어 해당 사항을 기록한다. emr 의 스파크를 많이 사용하므로 emr 을 기준으로 우선 기록 $ sudo systemctl stop hadoop-yarn-resourcemanager $ sudo systemctl status hadoop-yarn-resourcemanager $ sudo systemctl start hadoop-yarn-resourcemanager Data Engineering/Spark 2022.03.03
[Git] git clone 및 업로드 시 access token 하는 법 기록 1. 원인 2021년 8월 부로 git 의 로그인 정책이 변경되었으므로 해당 사항을 기록해서 추후 써먹고자 한다. 2. 방법 https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/creating-a-personal-access-token Creating a personal access token - GitHub Docs Note: If you use GitHub CLI to authenticate to GitHub on the command line, you can skip generating a personal access token and authenticate via the web browser instead. .. Data Engineering/GitHub 2022.03.03
[Hive error] java.lang.ClassNotFoundException: com.fasterxml.jackson.dataformat.cbor.CBORFactory 1. 에러 원인 json serde 로 저장된 hive 테이블을 불러올 때 json 형식으로 저장된 글을 인식하지 못해 일어나는 에러 2. 해결 방법 hive lib 의 jar 파일들이 있는 곳에 때려 박았음 참고로 jar 파일은 아래 링크에서 다운로드 받았다. https://jar-download.com/ Download JAR files with all dependencies Many resources are needed to download a project. Please understand that we have to compensate our server costs. Thank you in advance. Project price only 1 $ You can buy this project an.. Error code 모음/2. Hadoop errors 2022.02.24
방법을 찾는다는 것? 오랜만에 글은 쓴다. 최근에 뭔가 기존에 생각하던 방식을 깨부수고 있는 것 같은 느낌이 많이 든다. 업무에 있어서 문제를 해결하기 위한 방법을 찾아야 하는 상황을 많이 맞딱뜨리는데.. 팀장님이 뭔가를 던져주면 그것을 파악하고 어떻게 진행할 것에만 생각을 하는 것 같다. 하지만 팀장님은 그 방안도 있지만 더 나아가 다른 대체할 방안이 있을까? 이것도 원하신다. 연습하고 잇지만 아직까지는 미흡한 점이 많이 보이긴한다..ㅎㅎ... 무엇인가를 던져주었을 경우에 우리가 직면한 문제가 이해가 안되면 다시 물어보는 습관을 가지고 해당 오픈소스를 보기 이전에 어떤 방안이 더 있을까 고민을 해보아야 겠다.. 개발자에 대한 기록/개인적인 생각들 2022.02.14
[AWS Lambda Error] Unable to import module 'lambda_function': No module named 'tqdm' 1. 에러 원인 해당 에러의 원인은 aws 람다 실행시 람다에 패키지가 올라가 있지 않은 상태인 것이다. --> 패키지를 올려주면 에러가 해결이 될 수 있다. 2. 해결 방법 --> 람다에서 사용할 패키지를 모아 zip 파일 형태로 올리면 된다. 람다는 제약사항이 존재하는데 아래와 같다 1) 에러가 뜬 패키지들을 따로 모아서 압축한다. ( 로컬 프로젝트 에 들어가면 패키지를 모아논 Scripts 를 볼 수 있다 거기서 가져온다) 2) lambda 계층에 들어가서 zip 파일을 업로드한다. 전부 완성했으면 아래와 같이 생성된다 3) 해당 계층을 사용할 람다와 연결한다 4) 끝 3. 참고 링크 https://blog.naver.com/PostView.nhn?isHttpsRedirect=true&blogId=.. Error code 모음/11. Aws errors 2022.02.07
[ELK] ELK 에 대한 간단한 정리 1. ELK 란? Elasticsearch, Logstash, Kibana의 세 가지 인기 있는 프로젝트로 구성된 스택을 의미하는 약어 사용자에게 모든 시스템과 애플리케이션에서 로그를 집계하고 이를 분석하며 애플리케이션과 인프라 모니터링 시각화를 생성하고, 빠르게 문제를 해결하며 보안 분석할 수 있는 능력을 제공 1) E = Elasticsearch Elasticsearch는 Apache Lucene에 구축되어 배포된 검색 및 분석 엔진이며, 다양한 언어를 지원하고 고성능에 스키마가 없는 JSON 문서로 Elasticsearch는 다양한 로그 분석과 검색 사용됨 2) L = Logstash Logstash는 다양한 소스로부터 데이터를 수집하고 전환하여 원하는 대상에 전송할 수 있도록 하는 오픈 소스 데이.. Data Engineering/오픈 소스 기록 2022.02.03
[Linux] WSL 을 사용하여 윈도우에서 리눅스 파일복사하기 1. WSL 실행 (Windows 안에서 리눅스 실행) 2. 파일 있는 곳으로 경로를 찾아 이동 $ cd /mnt/c/Users/Desktop/[유저]/team/Project/ 3. 파일 복사 (linux의 홈 디렉토리로) $ cp test.txt /home 4. 결과 확인 $ cd ~ $ ls Linux 2022.01.28
[Hadoop Error] org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs 1. 에러의 원인 wsl 에서 간단한 spark 테스트를 위해 hadoop 을 설치했으나 datanode 와 namenode 의 clusterID 가 달라 벌어진 현상 평상시에는 가상환경 3개를 나누어 데이터 노드, 네임노드를 따로설정하기에 별 문제가 없지만 이번 경우에는 하나의 가상환경에서 테스트를 진행하는 것이기에 데이터 노드와 네임노드가 한곳에 위치했었다. 하지만 hadoop 을 설정하는 과정에서 하둡이 자연스럽게 데이터 노드와 네임노드의 clusterID 를 다르게 설정했고, 이로인해 한곳의 장소에서 두개의 다른 아이디가 뜨니 hadoop 입장에서는 에러를 때려서 데이터 노드를 꺼버린 것 2. 해결 방법 1) hadoop log 확인 나의 경우에는 hadoop 에 있는 데이터노드의 로그를 체크했다.. Error code 모음/2. Hadoop errors 2022.01.28
[Hadoop Error] java.io.EOFException: End of File Exception between local host is: "LAPTOP-N9CL8F77.localdomain/127.0.1.1"; destination host is: "localhost":9000; : java.io.EOFException 1. 에러 원인 there's no more data and the peer has closed the connection. --> 데이터 노드에 데이터가 없어서 연결을 끊어 버리겟슴다 라고 하둡에서 말하는 거라는 것 같다. 2. 해결 방법 말로는 core-site.xml 에 들어가서 ip를 127.0.0.1 ==> 0.0.0.0 으로 바꾸라는 것 같다 3. 참고 링크 https://stackoverflow.com/questions/7949058/what-is-the-meaning-of-eof-exceptions-in-hadoop-namenode-connections-from-hbase What is the meaning of EOF exceptions in hadoop namenode connectio.. Error code 모음/2. Hadoop errors 2022.01.28
[Linux] ls 로 정렬하기 1. 사용법 ls : 디렉터리 안의 항목을 리스트 -t : 마지막 업데이트 시각을 기준으로 정렬 -u : 마지막 액세스 시각을 기준으로 정렬 -U : 플래그로 생성일 기준 정렬 -r : 역순 정렬 -t Sort by time modified (most recently modified first) before sorting the operands by lexicographi- cal order. -u Use time of last access, instead of last modification of the file for sorting (-t) or long print- ing (-l). -U Use time of file creation, instead of last modification for so.. Linux 2022.01.28