프로젝트 주의 사항4: cloudera 설치 후 발생할 수 있는 문제들 정리2 - 서버연결문제 / NTP clock offset 문제
·
Error code 모음/2. Hadoop errors
서버 연결 문제 보통 클라우데라의 경우에는 5~10분정도 기다려야 로그인 창이 뜨긴한다.. 왜 그런지는 모르겠지만.. 하지만 10분이 지났는데도 안되면.. 리눅스 서버 내에 깔려 있는 클라우데라가 문제가 있을 수 있으므로 다시 시작해 주는 것이 좋다 1. systemctl stop cloudera-scm-agent - 노드 1에서 실행(cloudera 가 깔려 있는 노드!!) 2. pscp -h ~/hosts.txt systemctl stop cloudera-scm-agent -> 여기서 pscp 는 연결된 다른 가상환경의 노드들에게 같은 명령어를 뿌리게 해주는 리눅스만의 명령어 -> 모든 서버의 cloudera-scm-agent 들을 전부 꺼준다 3. systemctl stop cloudera-scm-..
python error: do_this( ) takes 1 positional argument but 15 were given
·
Error code 모음/4. Python errors
해당 에러는 파이썬에서 나타나는 전달된 인자 갯수와 관련된 에러타입이다 함수는 위치 인자를 1개 취하는데, 이 개수보다 많은 인자가 위치 인자로 전달되었거나, 특정하게 지정되지 않은 인자가 전달되지 않았을 때 나타나는 에러이다. 이 상황은 주로 2가지 상황에서 나타나는 것 같은데.. 첫번째는 class 함수에 self 가 들어가지 않았을 때 위 첫번재 에러의 경우에는 아직 코드로 구현을 하지 않아서 . 나중에 참고하기 위해 링크를 남겨둔다 https://stackoverflow.com/questions/23944657/typeerror-method-takes-1-positional-argument-but-2-were-given TypeError: method() takes 1 positional argu..
python error: The "freeze_support()" line can be omitted if the program is not going to be frozen to produce an executable.
·
Error code 모음/4. Python errors
위 에러는 multiprocessing 을 실행할 때, if __name__ == '__main__': 과 freeze_support( ) 를 사용하지 않고 실행했을 때 나타나는 에러이다. 우선 if __name__ == '__main__' 의 경우에는 이미 실행된 함수가 다른 객체에 할당되어 실행될때, 이전의 내용과 중복되어 실행되는 것을 막아주는 기능을 하는데 중복/반복을 막아 자원이 중복 사용되는 것을 막아주는 함수이다. 그리고 freeze_support( ) 의 경우에는 파이썬 multiprocessing 이 윈도우에서 실행될 경우, 자원이 부족할 경우를 대비해 파일 실행을 위한 자원을 추가해주는 역할을 하는 함수이다 그리고 효율 적인 자원 사용과 중복 방지를 위하여 if __name__ =='_..
Python IDE - VS code 단축키 정리 1
·
언어/Python
파이참만 쓰다가 여러가지로 불편한 점이 있어서 최근 VS 코드로 옮겼는데, 파이참에 익숙해져서 인지 여러므로 익숙해지는데 시간이 걸릴 것 같다. 자주 사용하는 단축키 우선 정리해두어야 겠다. 코드 실행 한꺼번에 실행하기 : Ctrl + F5( 디버깅의 기능도 있다) 한줄식 실행하기 : Ctrl + Enter (실행시키고 싶은 부분의 코드를 드래그한후 해당 키를 누르면 그 부분이 전체가 실행) 다른 파일로 옮기기 : Ctrl + F6 - 해당 코드를 실행시키면 다른 파일로 옮겨갈 수 있다 디버깅 : F10 - 디버깅은 시작파일로 등록된 파일만 계속 실행이 되기 때문에 이점이 좀 불편하다. - 파이참은.. 그냥 다 되었었는데.. 디버깅을 하려면 파일을 새로 만들고 그 파일을 바탕으로 계속 실행이 되므로 주의..
Introducing python 참고 개념 : multiprocessing
·
언어/Python
싱글 머신에서 다수의 작업을 가능한 한 빠르게 처리하고 싶을 때, 이들을 독립적으로 만들어 처리하는 작업 멀티 프로세싱을 활용하면 복잡하고 시간이 걸리는 작업을 벼롣의 프로세스를 생성 후 병렬처리해서 보다 빠른 응답처리 속도를 기대할 수 있는 장점이 있다. 최근들어 대용량의 빅데이터 분석 및 예측 등의 머신 러닝을 지원하는 다양한 패키지에서 대부분 멀티 프로세싱을 활용하여 멀티코어의 CPU의 장점을 극대화하고 빠른 처리를 지원하고 있다. 하지만, 멀티프로세싱은 오버해드의 증가 및 메모리 사용률이 높아지는 단점도 있다. 대표적인 파이썬의 multiprocessing 라이브러리는 Pool 객체가 있다. 아래 링크들을 통해 자세한 내용을 이해할 수가 있다. 첫번째 링크는 multiprocessing 에 대한 ..
프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제
·
Error code 모음/2. Hadoop errors
클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..
프로젝트 주의 사항2: cloudera 삭제 방법
·
Error code 모음/2. Hadoop errors
이 방법은 putty 에서 cloudera 를 삭제하는 방법이다 배포한 서버별로 아래 명령어를 실행해주어야 한다 service cloudera-scm-agent stop service cloudera-scm-server stop 하지만, 이미 pssh 모듈을 사용하고 있으므로 기존에 작성해둔, hosts.txt 를 바탕으로 각 명령어를 공통적으로 뿌려준다 pssh -h ~/hosts.txt service cloudera-scm-agent stop pssh -h ~/hosts.txt service cloudera-scm-server stop 그 이후, node 1에만 클라우데라를 설치해주었으므로 아래 명령어를 활용하여 삭제해준다 yum remove 'cloudera-manager-*' (클라우데라 설치되어..
프로젝트 주의 사항1: 가상환경과 ssh 의 관계 - ssh permission denied(publickey, passward)
·
Error code 모음/2. Hadoop errors
클라우데라 설치를 위한 사전작업으로 ssh라는 원격 접속 툴을 설치하고 이를 바탕으로 node1에서 ssh 를 통해 node2 와 node3 에 원격 접속하여 패키지들과 다른 진행사항들을 한번에 뿌릴 준비를 하고 있었는데.. 어제 오후부터 계속 막히는 것이었다. ip 설정이며 다른것들은 다 제대로 했는데.. 왜 안되는 것일까... 고민에 고민을 했었고 가상환경을 수도 없이 밀면서 ㅠㅠ 여러 사이트들을 돌며 하루 종일 찾았었다.. 대부분 /etc/ssh/sshd_conf 에 들어가서 퍼미션, 퍼밋 유저 DNS 부분에서 허락 표시로 하라고 한다.. --> 이것들이 주석이 되어 있을 경우에는 DEFAULT 값으로 되어 있지만.. 리눅스에서 통신시에 인지를 못할 수 있다는 것이다. 두번째로는 리눅스를 설치할 때..
머신러닝 관련 참고 지식 : 오분류표/정확도/특이도/지지도/신뢰도
·
머신러닝, AI
오분류표 (confusion matrix) 대부분의 분류 분석 모델 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용된다. 오분류표는 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표로 다음과 같이 나타낸다. 오분류표의 각 값이 의미하는 바는 다음과 같다. - TP(True Positives): 실제값과 예측치 모두 True 인 빈도 - TN(True Negatives): 실제값과 예측치 모두 False 인 빈도 - FP(Fasle Positives): 실제값은 False이나 True 로 예측한 빈도 - FN(Fasle Negatives): 실제값은 True 이나 Fasle 로 예측한 빈도 오 분류 표를 활용하여 모형을 평가하는 ..
리눅스 네트워크 설정시 주의할 점
·
Linux
네트워크 ip 주소의 최대 범위는 255.255.255.255 이다 그러므로 네트워크 주소를 설정해줄때 255 이상의 숫자 범위를 넘어가면 리눅스 서버에서 해당 ip 를 제대로 인식하지 못하여 서버 에러가 뜰 수 있다. 직접 경험 참고 701로 설정을 했다가 inet 부분이 계속 172.30.1.22/24 로 띄워져서 이유를 뒤져봤더니... 네트워크 주소는 255 이상을 식별하지 못하는 것으로... 그래서 255 이내로 주소 설정을 해야된다는 것을 배웟...ㅠㅠㅠ