concat_ws등 여러가지 함수를 통해 새로운 컬럼을 만들게 될 경우

컬럼의 이름은 합쳐진 컬럼의 이름으로 나오기 때문에 보기 불편하다.

그렇기 때문에 as 를 붙여준 뒤 원하는 컬럼이름을 사용하면 

보기 깔끔한 컬럼 이름을 만들어 줄 수 있다.

 

두개 이상의 column을 합치고 싶은 경우 concat이나 concat_ws를 쓴다. concat_ws는 맨 처음에 구분자가 들어간다.

 

 

 

use를 통해 데이터베이스를 선택하고 show는 테이블이름들을 보여준다.

desc는 테이블의 column들을 보여주고 insert문으로 데이터를 넣고 select문으로 데이터를 읽는다.

위 두가지 방법중 하나로 테이블을 만들면 된다.

 

 

Table Name에는 원하는 이름을 적어주고 Column Name과 Datatype을 정해준다.

visual c++ 2019 설치한다.

support.microsoft.com/ko-kr/help/2977003/the-latest-supported-visual-c-downloads

Workbench를 다운로드 한다.

https://dev.mysql.com/downloads/workbench/


엔드포인트 및 포트를 복사해놓고, 만들어 놓은 데이터베이스 접속해서 VPC보안 그룹를 클릭한다.

 

 

데이터베이스에 접속하기 위해서는 인바운드 규칙을 편집해야 한다. 

 

 

위와 같이 인바운드 규칙을 새로 만들어 준다.

 

 

Workbench를 실행하고 +버튼을 누른 뒤 Connetion Name에 원하는 이름 Hostname에 전에 복사해놓은 엔드포인트를 넣고 데이터베이스를 만들 때 설정한 username과 password를 입력하고 Test Connention에 성공하면 OK를 누른다.

대시보드 -> 데이터베이스 생성 클릭

표준생성 -> MySQL로 선택

프리 티어로 선택

admin 암호 설정한다.

퍼블릭억세스 가능 "예"로 선택

"데이터베이스 생성" 클릭

데이터를 import 후 pivot_table함수로 collaborative filtering format으로 변경한다.

 

최소 80개이상 데이터가 있는 것만 상관계수를 뽑기 위해서 min_periods 파라미터에 80을 대입한다.

myRatings를 통해 추천을 받으려고한다. Movie Name column에서 nan값을 dropna하고 내림차순 정렬후 데이터프레임으로 만든 뒤 별점을 곱해서 weight column을 만든다. similar_movies_list에 정리하면 다음과 같다.

데이터를 import 했다. Date column을 datetime64로 바꾸고 인덱스로 설정해주면 resample함수를 사용할 수 있다.

resample 'Y'는 년도다. 년도로 리샘플한 후 , 각 년도별 몇개의 범죄 데이터를 가지고 있는지 확인한다.

월별 범죄 발생 건수를 확인해보자.

데이터 타입이 datetime64인 Series나 column에 dt속성을 통해 여러 속성들을 사용가능하다,

위 사진은  dayofweek 0 ~ 6 으로 월요일부터 일요일을 나타내고 day는 몇 일 인지 나온다.

weekday를 통해서 0 ~ 6 으로 요일을 나타낼 수도 있다.

데이터프레임의 날짜문자열 컬럼을, datetime64로 변경할 수 있다.

Date column에는 날짜문자열이 들어 있었는데 이것을 pd.to_datetime함수를 통해 datetime64로 변경한다.

이때 format에 문자열 형식을 적어 줘야한다. strftime section 이 링크를 참고해서 바꾸면 된다.

+ Recent posts