Python IDE - VS code 단축키 정리 1
·
언어/Python
파이참만 쓰다가 여러가지로 불편한 점이 있어서 최근 VS 코드로 옮겼는데, 파이참에 익숙해져서 인지 여러므로 익숙해지는데 시간이 걸릴 것 같다. 자주 사용하는 단축키 우선 정리해두어야 겠다. 코드 실행 한꺼번에 실행하기 : Ctrl + F5( 디버깅의 기능도 있다) 한줄식 실행하기 : Ctrl + Enter (실행시키고 싶은 부분의 코드를 드래그한후 해당 키를 누르면 그 부분이 전체가 실행) 다른 파일로 옮기기 : Ctrl + F6 - 해당 코드를 실행시키면 다른 파일로 옮겨갈 수 있다 디버깅 : F10 - 디버깅은 시작파일로 등록된 파일만 계속 실행이 되기 때문에 이점이 좀 불편하다. - 파이참은.. 그냥 다 되었었는데.. 디버깅을 하려면 파일을 새로 만들고 그 파일을 바탕으로 계속 실행이 되므로 주의..
Introducing python 참고 개념 : multiprocessing
·
언어/Python
싱글 머신에서 다수의 작업을 가능한 한 빠르게 처리하고 싶을 때, 이들을 독립적으로 만들어 처리하는 작업 멀티 프로세싱을 활용하면 복잡하고 시간이 걸리는 작업을 벼롣의 프로세스를 생성 후 병렬처리해서 보다 빠른 응답처리 속도를 기대할 수 있는 장점이 있다. 최근들어 대용량의 빅데이터 분석 및 예측 등의 머신 러닝을 지원하는 다양한 패키지에서 대부분 멀티 프로세싱을 활용하여 멀티코어의 CPU의 장점을 극대화하고 빠른 처리를 지원하고 있다. 하지만, 멀티프로세싱은 오버해드의 증가 및 메모리 사용률이 높아지는 단점도 있다. 대표적인 파이썬의 multiprocessing 라이브러리는 Pool 객체가 있다. 아래 링크들을 통해 자세한 내용을 이해할 수가 있다. 첫번째 링크는 multiprocessing 에 대한 ..
프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제
·
Error code 모음/2. Hadoop errors
클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..
프로젝트 주의 사항2: cloudera 삭제 방법
·
Error code 모음/2. Hadoop errors
이 방법은 putty 에서 cloudera 를 삭제하는 방법이다 배포한 서버별로 아래 명령어를 실행해주어야 한다 service cloudera-scm-agent stop service cloudera-scm-server stop 하지만, 이미 pssh 모듈을 사용하고 있으므로 기존에 작성해둔, hosts.txt 를 바탕으로 각 명령어를 공통적으로 뿌려준다 pssh -h ~/hosts.txt service cloudera-scm-agent stop pssh -h ~/hosts.txt service cloudera-scm-server stop 그 이후, node 1에만 클라우데라를 설치해주었으므로 아래 명령어를 활용하여 삭제해준다 yum remove 'cloudera-manager-*' (클라우데라 설치되어..
프로젝트 주의 사항1: 가상환경과 ssh 의 관계 - ssh permission denied(publickey, passward)
·
Error code 모음/2. Hadoop errors
클라우데라 설치를 위한 사전작업으로 ssh라는 원격 접속 툴을 설치하고 이를 바탕으로 node1에서 ssh 를 통해 node2 와 node3 에 원격 접속하여 패키지들과 다른 진행사항들을 한번에 뿌릴 준비를 하고 있었는데.. 어제 오후부터 계속 막히는 것이었다. ip 설정이며 다른것들은 다 제대로 했는데.. 왜 안되는 것일까... 고민에 고민을 했었고 가상환경을 수도 없이 밀면서 ㅠㅠ 여러 사이트들을 돌며 하루 종일 찾았었다.. 대부분 /etc/ssh/sshd_conf 에 들어가서 퍼미션, 퍼밋 유저 DNS 부분에서 허락 표시로 하라고 한다.. --> 이것들이 주석이 되어 있을 경우에는 DEFAULT 값으로 되어 있지만.. 리눅스에서 통신시에 인지를 못할 수 있다는 것이다. 두번째로는 리눅스를 설치할 때..
머신러닝 관련 참고 지식 : 오분류표/정확도/특이도/지지도/신뢰도
·
Data Engineering/머신러닝, AI
오분류표 (confusion matrix) 대부분의 분류 분석 모델 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용된다. 오분류표는 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표로 다음과 같이 나타낸다. 오분류표의 각 값이 의미하는 바는 다음과 같다. - TP(True Positives): 실제값과 예측치 모두 True 인 빈도 - TN(True Negatives): 실제값과 예측치 모두 False 인 빈도 - FP(Fasle Positives): 실제값은 False이나 True 로 예측한 빈도 - FN(Fasle Negatives): 실제값은 True 이나 Fasle 로 예측한 빈도 오 분류 표를 활용하여 모형을 평가하는 ..
리눅스 네트워크 설정시 주의할 점
·
언어/Linux
네트워크 ip 주소의 최대 범위는 255.255.255.255 이다 그러므로 네트워크 주소를 설정해줄때 255 이상의 숫자 범위를 넘어가면 리눅스 서버에서 해당 ip 를 제대로 인식하지 못하여 서버 에러가 뜰 수 있다. 직접 경험 참고 701로 설정을 했다가 inet 부분이 계속 172.30.1.22/24 로 띄워져서 이유를 뒤져봤더니... 네트워크 주소는 255 이상을 식별하지 못하는 것으로... 그래서 255 이내로 주소 설정을 해야된다는 것을 배웟...ㅠㅠㅠ
리눅스 에러01 : no write since last change
·
Error code 모음/3. Linux Errors
vi 편집기의 내용을 변경해준 후에 바로 :q 를 써서 빠져나오려고 해서 발생 이럴 때는 :wq 로 파일 저장 후, 종료를 해주면 된다 ( :wq ) 는 vi 편집기 종료 명령어이다. 하단 링크 참고 http://mwultong.blogspot.com/2006/11/vim-vi-gvim-exit-quit.html VIM (VI, GVIM) 빔 에디터, 종료 명령어, 빠져 나오는 법; Exit Quit mwultong.blogspot.com
Chapter 2. 사이킷 런으로 시작하는 머신러닝 스터디 1주차 정리
·
Data Engineering/머신러닝, AI
1) 사이킷런 특징 - 사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 - 파이썬 기반의 머신러닝을 위한 가장 쉽교 효율적인 개발 라이브러리를 제공 - 가장 파이썬 스러운 API 제공 - 기본적으로 아나콘다를 설치할 때 기본적으로 설치됨 2) 첫번째 머신러닝 만들어보기- 붓꽃 품종 예측하기 첫번째로 만들어 볼 붓꽃 데이터 세트, 붓꽃의 품종을 분류(classification) 하는 것. 붓꽃(iris) 데이터는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 feature 기반으로 꽃의 품종을 예측하기 위한 것 ** 분류(classification) ** 대표적인 지도학습(Supervised Learning) 방법의 하나. ** 지도학습(Supervised Learning) ** 지도학..
가우시안 정규분포
·
Data Engineering/머신러닝, AI
머신러닝에서 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처스케일링 이라고 하는데 대표적인 방법 중 하나가 표준화 / 정규화입니다. 이 표준화는 데이터 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것을 의미하는데요. 여기서 가우시안 정규분포는 가우시안 분포는 연속 확률 분포의 하나입니다. 가우시안 분포는 보통 정규분포(standard distribution)로 알려져있습니다. 연속 확률 분포 중 가장 널리 알려진 분포 입니다. 여기서 파생된 중요한 정리가 중심극한 정리.. 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다 라는 정리 중심극한정리 참고 링크 https://bioinformaticsandm..