반응형

분류 전체보기 584

프로젝트 주의 사항3: cloudera 설치 후 발생할 수 있는 문제들 정리1 : DNS 문제, 구성(메모리 할당) 문제

클라우데라의 문제는 색깔 기준으로 2개로 섹션이 나뉜다. 우선 구성에 들어가 해결할 수 있는 문제들을 해결한다. 1. 빨간색(모든 상태 문제) - DNS 문제(DNS 관련 문제 가 있다고 계속 뜸) allias 로 기입을 했지만, allias 를 통한 노드 이름을 식별하지 못하는 것이기 때문에 나타나는 문제이다 이럴때는 putty 로 연결되어 있는 노드들에 들어가 노드의 이름을 allias 에서 본래 이름으로 바꾸어 준다. 그 이후에, cloudera-scm-agent / server / server-db 등을 다시 시작해 준다음에 재 로그인해주면 된다. 참고로, ssh 를 써주면 node1 에서 node2로 잠시 접속을 갈아타 일일히 가상환경을 키지 않아도 노드들의 이름을 바꾸어 줄 수가 있으므로 편하..

프로젝트 주의 사항2: cloudera 삭제 방법

이 방법은 putty 에서 cloudera 를 삭제하는 방법이다 배포한 서버별로 아래 명령어를 실행해주어야 한다 service cloudera-scm-agent stop service cloudera-scm-server stop 하지만, 이미 pssh 모듈을 사용하고 있으므로 기존에 작성해둔, hosts.txt 를 바탕으로 각 명령어를 공통적으로 뿌려준다 pssh -h ~/hosts.txt service cloudera-scm-agent stop pssh -h ~/hosts.txt service cloudera-scm-server stop 그 이후, node 1에만 클라우데라를 설치해주었으므로 아래 명령어를 활용하여 삭제해준다 yum remove 'cloudera-manager-*' (클라우데라 설치되어..

프로젝트 주의 사항1: 가상환경과 ssh 의 관계 - ssh permission denied(publickey, passward)

클라우데라 설치를 위한 사전작업으로 ssh라는 원격 접속 툴을 설치하고 이를 바탕으로 node1에서 ssh 를 통해 node2 와 node3 에 원격 접속하여 패키지들과 다른 진행사항들을 한번에 뿌릴 준비를 하고 있었는데.. 어제 오후부터 계속 막히는 것이었다. ip 설정이며 다른것들은 다 제대로 했는데.. 왜 안되는 것일까... 고민에 고민을 했었고 가상환경을 수도 없이 밀면서 ㅠㅠ 여러 사이트들을 돌며 하루 종일 찾았었다.. 대부분 /etc/ssh/sshd_conf 에 들어가서 퍼미션, 퍼밋 유저 DNS 부분에서 허락 표시로 하라고 한다.. --> 이것들이 주석이 되어 있을 경우에는 DEFAULT 값으로 되어 있지만.. 리눅스에서 통신시에 인지를 못할 수 있다는 것이다. 두번째로는 리눅스를 설치할 때..

머신러닝 관련 참고 지식 : 오분류표/정확도/특이도/지지도/신뢰도

오분류표 (confusion matrix) 대부분의 분류 분석 모델 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용된다. 오분류표는 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표로 다음과 같이 나타낸다. 오분류표의 각 값이 의미하는 바는 다음과 같다. - TP(True Positives): 실제값과 예측치 모두 True 인 빈도 - TN(True Negatives): 실제값과 예측치 모두 False 인 빈도 - FP(Fasle Positives): 실제값은 False이나 True 로 예측한 빈도 - FN(Fasle Negatives): 실제값은 True 이나 Fasle 로 예측한 빈도 오 분류 표를 활용하여 모형을 평가하는 ..

머신러닝, AI 2020.03.12

리눅스 네트워크 설정시 주의할 점

네트워크 ip 주소의 최대 범위는 255.255.255.255 이다 그러므로 네트워크 주소를 설정해줄때 255 이상의 숫자 범위를 넘어가면 리눅스 서버에서 해당 ip 를 제대로 인식하지 못하여 서버 에러가 뜰 수 있다. 직접 경험 참고 701로 설정을 했다가 inet 부분이 계속 172.30.1.22/24 로 띄워져서 이유를 뒤져봤더니... 네트워크 주소는 255 이상을 식별하지 못하는 것으로... 그래서 255 이내로 주소 설정을 해야된다는 것을 배웟...ㅠㅠㅠ

Linux 2020.03.11

프로젝트 주요 개념02 - 애드혹 분석(Ad-hoc)

데이터 관련 프로젝트를 진행하다보면 자주 나오는 개념인데.. 그럴때마다 계속 읽었지만 까먹어서 이참에 기록을 해두어야 겠다.. 애드혹이란 위키백과를 기준으로 설명을 우선 하자면, 라틴어로써 뜻은 '이것을 위해', '특별한 목적을 위해서' 라는 의미를 가지고 있다. 1. 특정한 문제나 일을 위해 만들어진 관습적인 해결책 2. 일반화할 수 없는 해결책 3. 어떤 다른 목적에 적응시킬 수 없는 해결책 어도비에서 내린 간단한 정의는 이렇군요. 실시간 방문자 정보를 제한없이 활용하여, 가치가 높은 고객 세그먼트를 식별할 수 있도록 돕기 때문에 데이터를 심층 분석하여 고객을 더 깊고 정확하고 종합적인 방식으로 이해한다. datapine 이라는 외국의 웹사이트에서 내린 정의에 따르면 what Is Ad Hoc Ana..

설치 사전 작업 : open JDK vs oracle JDK

클라우데라를 설치하는 데 있어 주의해야될 점이 있는데 바로 JDK를 설치하는 것이다. JDK 의 경우에는 Cloudera 설치를 위해서는 open JDK 를 설치할 것을 권장하고 있는데, 그 이유는 Oracle JDK 를 설치할 경우에는 라이선스 문제로 인해 JDK 사용에 제약이 걸려 Cloudera 를 실행하는 데 문제가 발생할 수 있다. 그것을 미연에 방지하기 위해 open JDK 를 설치할 것을 권장하고 있다. 자세한 사항은 추후 하단 링크 참고 https://jsonobject.tistory.com/395 Java 유료 논쟁, Oracle JDK와 OpenJDK의 차이 정리 Oracle JDK와 OpenJDK Java 애플리케이션을 실행하기 위해서는 JVM이 필요하고 컴파일하기 위해서는 JDK가 ..

프로젝트 주요 개념01 - 맵리듀스(Map reduce)

맵 리듀스는 여러 노드에 테스크를 분배하는 방법이다. 각 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장된다. 맵 리듀스 테스크는 맵(map) 과 리듀스(reduce)로 구성된다. 쉬운 예시로는 Fork-Join 풀인데, 이 풀은 큰 업무를 작은 업무 단위로 쪼개고, 그것을 각기 다른 cpu에서 병렬로 실행한 후 결과를 취합하는 방식이다. 아래 이미지를 통해 fork-join 에 대해서 간략하게 이해할 수 있으니 참고. 맵 리듀스는 위 fork-join 풀처럼 큰 작업들을 fork 로 분할해서 처리한 뒤에 다시 join 해서 결과물을 만드는 방식인 것이다. 하둡은 계산시, 큰 파일을 블럭 단위로 나누고 모든 블럭은 같은 Map 작업을 수행후 다시 Reduce 작업을 수행하게 된다. - Map( 맵..

Chapter 2. 사이킷 런으로 시작하는 머신러닝 스터디 1주차 정리

1) 사이킷런 특징 - 사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 - 파이썬 기반의 머신러닝을 위한 가장 쉽교 효율적인 개발 라이브러리를 제공 - 가장 파이썬 스러운 API 제공 - 기본적으로 아나콘다를 설치할 때 기본적으로 설치됨 2) 첫번째 머신러닝 만들어보기- 붓꽃 품종 예측하기 첫번째로 만들어 볼 붓꽃 데이터 세트, 붓꽃의 품종을 분류(classification) 하는 것. 붓꽃(iris) 데이터는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 feature 기반으로 꽃의 품종을 예측하기 위한 것 ** 분류(classification) ** 대표적인 지도학습(Supervised Learning) 방법의 하나. ** 지도학습(Supervised Learning) ** 지도학..

머신러닝, AI 2020.03.09
반응형