반응형

Error code 모음 163

[Spark Error] Spark Service ‘sparkDriver’ failed after 16 retries (on a random free port)

1. 개요 맥북에서 파이스파크를 설치하고 실행하려고 했을 때 위와 같은 에러가 나타났다 2. 원인 hostname 이 등록되어 있지 않아서 나타난 에러였다. vi /etc/hosts 를 해서 내 호스트 네임을 등록해주면 된다. 3. 참고 링크 https://itholic.github.io/etc-sparkdriver-retires-err/ [spark] Service ‘sparkDriver’ failed after 16 retries (on a random free port)! 오류 Spark Service ‘sparkDriver’ failed after 16 retries (on a random free port)! 오류 해결 itholic.github.io

[Hadoop Error] The auxService:mapreduce_shuffle does not exist

1. 원인 yarn-site.xml 기입을 할 때 aux-service handler 를 설정하지 않았던 이유가 컸다. yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce_shuffle.class org.apache.hadoop.mapred.ShuffleHandler -> aux-services 을 설정할 때 아래에 mapreduce_shuffle.class 설정을 반드시 해주어야 한다. 왜 aux-service 설정시 mapreduce_shuffle.class 을 설정해주어야 하는지 궁금해서 서치를 해보았더니 주로 나오는 이유는 아래와 같았다. 1) must have 로 꼭 기입해야만 한다. 2) ..

[ Python Error ] dtypewarning columns have mixed types.specify dtype option on import or set low_memory=false

1. 개요 해당 사항은 에러가 아니다. 컬럼에 NaN 값 또는 여러 타입의 데이터가 섞여 있으면 발생하는 에러이다. 2. 해결 방법 경고 메시지가 알려주는 대로 dtype option으로 타입을 명시해주거나 low_memory = False로 지정해 주면 경고 메시지가 출력되지 않는다. 3. 참고 링크 https://stackoverflow.com/questions/24251219/pandas-read-csv-low-memory-and-dtype-options Pandas read_csv: low_memory and dtype options df = pd.read_csv('somefile.csv') ...gives an error: .../site-packages/pandas/io/parsers.py:1..

[Java error] Jersey, An I/O error has occurred while writing a response message

1. 에러 원인 aws emr spark 의 hudi 로 데이터를 쓰는 도중 아래와 같이 에러가 일어났다 $ 22/03/17 00:54:25 ERROR ServerRuntime$Responder: An I/O error has occurred while writing a response message entity to the container output stream. org.glassfish.jersey.server.internal.process.MappableException: org.sparkproject.jetty.io.EofException 에러의 원인은 client side 로 부터 서버가 닫힌 상황에서 발생하는 것이라고 한다. 에러의 원인에 대한 설명(stackoverflow) This ki..

[Spark error] Application report for application_1646281420207_0003 - 끝나지 않을때

1. 원인 yarn에서 해당 job에 리소스를 할당해주지 못해 발생하는 문제 계속 위의 문구가 반복된다. 2. 해결방법 여러가지 원인이 있지만, 나의 경우에는 한 job 이 메모리의 99.8%를 먹고 있어서 발생했다. 체크하기 위해서 yarn dashboard 에 접속해서 상태를 체크해봤다. 3. 참고 링크 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=alice_k106&logNo=220451472888 32. [Spark] Application report for application_ (state: ACCEPTED) 가 끝나지 않을 떄 최근, spark로 클러스터를 구축해야 할 일이 생겨서 사내 서버 내에서 리눅스 컨테이너를..

[AWS Error] EMR spark error : java.lang.ClassNotFoundException: Failed to find data source: ...

1. 에러 원인 해당 에러는 특정 jar 파일을 찾을 수 없을 때 나타난다. 2. 해결 방법 해결 방법은 의외로 간단한 것 같다. 사용하고자 하는 jar 파일의 위치를 spark-defaunt.conf 에 등록해주면 된다. 자세한 사항은 아래 링크를 참고하면 될것 같다. emr 위주이지만 이해하기 쉽게 영상도 있어서 해결하기는 수월할 것 같다. 3. 참고 링크 https://aws.amazon.com/ko/premiumsupport/knowledge-center/emr-spark-classnotfoundexception/ Amazon EMR에서 Spark의 "java.lang.ClassNotFoundException" 해결 스택 추적을 확인하여 누락된 클래스의 이름을 찾습니다. 그런 다음 사용자 지정 J..

[Hive error] java.lang.ClassNotFoundException: com.fasterxml.jackson.dataformat.cbor.CBORFactory

1. 에러 원인 json serde 로 저장된 hive 테이블을 불러올 때 json 형식으로 저장된 글을 인식하지 못해 일어나는 에러 2. 해결 방법 hive lib 의 jar 파일들이 있는 곳에 때려 박았음 참고로 jar 파일은 아래 링크에서 다운로드 받았다. https://jar-download.com/ Download JAR files with all dependencies Many resources are needed to download a project. Please understand that we have to compensate our server costs. Thank you in advance. Project price only 1 $ You can buy this project an..

[AWS Lambda Error] Unable to import module 'lambda_function': No module named 'tqdm'

1. 에러 원인 해당 에러의 원인은 aws 람다 실행시 람다에 패키지가 올라가 있지 않은 상태인 것이다. --> 패키지를 올려주면 에러가 해결이 될 수 있다. 2. 해결 방법 --> 람다에서 사용할 패키지를 모아 zip 파일 형태로 올리면 된다. 람다는 제약사항이 존재하는데 아래와 같다 1) 에러가 뜬 패키지들을 따로 모아서 압축한다. ( 로컬 프로젝트 에 들어가면 패키지를 모아논 Scripts 를 볼 수 있다 거기서 가져온다) 2) lambda 계층에 들어가서 zip 파일을 업로드한다. 전부 완성했으면 아래와 같이 생성된다 3) 해당 계층을 사용할 람다와 연결한다 4) 끝 3. 참고 링크 https://blog.naver.com/PostView.nhn?isHttpsRedirect=true&blogId=..

[Hadoop Error] org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs

1. 에러의 원인 wsl 에서 간단한 spark 테스트를 위해 hadoop 을 설치했으나 datanode 와 namenode 의 clusterID 가 달라 벌어진 현상 평상시에는 가상환경 3개를 나누어 데이터 노드, 네임노드를 따로설정하기에 별 문제가 없지만 이번 경우에는 하나의 가상환경에서 테스트를 진행하는 것이기에 데이터 노드와 네임노드가 한곳에 위치했었다. 하지만 hadoop 을 설정하는 과정에서 하둡이 자연스럽게 데이터 노드와 네임노드의 clusterID 를 다르게 설정했고, 이로인해 한곳의 장소에서 두개의 다른 아이디가 뜨니 hadoop 입장에서는 에러를 때려서 데이터 노드를 꺼버린 것 2. 해결 방법 1) hadoop log 확인 나의 경우에는 hadoop 에 있는 데이터노드의 로그를 체크했다..

반응형