본문 바로가기

분류 전체보기

(14)
4. 비정형 데이터와 텍스트마이닝 정형/비정형 데이터 정형 데이터(structured data) : 일정한 규격이나 형태를 지닌 데이터. 우리가 흔히 사용해왔던 데이터들처럼 동일한 하나의 속성을 가진 데이터들이 행 또는 열을 기준으로 정리돼 있는 데이터 ex) 나이(integer), 이름(string), 성별(string or integer) 비정형 데이터(unstructured data) : 정형 데이터와 달리 일정한 규격이나 형태를 지니지 않은 데이터. 그림과 영상, 문서, 음성처럼 각각의 형태와 구조가 다른 데이터 반정형 데이터 : 더 세부적으로 나눌 경우! 데이터 마이닝 - 빅데이터의 등장으로 자료의 양이 커지고 복잡해짐으로써 자동화된 분석이 필요해짐 - 신경망, 군집분석, 의사결정나무 등 빅데이터 분석 기법 적용해 자료의 정보 ..
3. 패키지_ggplot2 2️⃣ ggplot2 패키지 - 시각화의 대표적인 패키지 - 그래프 그릴 때 가장 자주 사용 - 데이터 시각화에 효과적 : 직관적, 편리, 효율성 ggplot2 시각화 과정 1) 그래프 그릴 공간 마련 2) xy축, 형태, 색 변수 선택 3) 그래프 유형 선택 4) 범례(항목), 제목 설정 패키지 사용 방법 install.packages("ggplot2") # 설치 library(ggplot2) # 불러오기 시 따옴표 적지 않아도 됨! ggplot(데이터 프레임 이름, aes(x=변수1, y=변수2, fill=변수3)) - ggplot2 패키지 안에 ggplot이라는 함수가 있음. - aes는 aesthetic의 약자. 그래프의 틀 결정하는 함수 - x, y는 각각 x축과 y축 의미 - fill은 색상에..
2. 패키지_dplyr 패키지란? 다양한 함수와 데이터 등의 묶음. 사용하기 편리하게 만들어진 상자 꾸러미라고 보면 됨 패키지의 형태 1) 내부 패키지 - 패키지 이름으로 설치 가능한 패키지 - Rstudio에서 공식 허가한 CRAN에 올라와 있는 패키지 2) 외부 패키지 - 개인이 제작, 공유하는 패키지 - Github를 통해서 불러올 수 있음 패키지 설치 / 삭제 / 업데이트 install.packages("패키지 이름") #대문자처리 필요! - 만약 패키지 이름이 MASS라고 할 때, mass라고 쓰면 인식을 못함 - 패키지를 여러 개 한꺼번에 설치할 때는 c 함수 활용 ex) install.packages(c("dplyr", "ggplot2")) remove.packages("패키지 이름") - 패키지를 삭제하는 함수 ..
1. 데이터/데이터 분석이란? 데이터 자료 구조 (1) 벡터 - 하나 이상의 문자 / 숫자 등의 덩어리 = 집합 - 동일한 데이터의 유형 - 1차원 데이터 자료 구조 -> '열'로만 구성됨 벡터 만들기 ① 함수 c() 이용 x
[엑셀보다 쉬운 SQL] 4주차 강의노트 목표 subquery(서브쿼리) 사용 방법 익히기 실전에서 유용한 SQL 문법 실전 데이터분석 진행 subquery - 쿼리문 안에 들어가는 쿼리문 - 쿼리는 간단하고 쉽게 쓰는 게 best. 간소화하는 데 쓰는 게 서브쿼리 # 서브쿼리 안 쓴 쿼리문 select u.user_id, u.name, u.email from users u inner join orders o on u.user_id = o.user_id where o.payment_method = 'kakaopay' # 서브쿼리 쓴 쿼리문 select u.user_id, u.name, u.email from users u where u.user_id in ( select user_id from orders where payment_method ..
[데이터 분석] 3주차 강의노트 (1) 데이터프레임 목표 데이터프레임 사용법 익히기 파이썬 이용해 데이터를 차트로 시각화 상관 관계 분석 이해 순서를 잘 파악하자. 각 과정이 유기적으로 연결된다는 걸 알아두기 데이터 프레임 형태 파악하기 - 판다스는 url 입력으로도 데이터를 바로 읽을 수 있음 - csv 파일을 데이터 프레임으로 읽을 때는 pd.read_csv(url, 세퍼레이터) 함수를 사용 import pandas as pd url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv' drink_df = pd.read_csv(url, ',') - read.tabel과 pd.read_csv() 둘 다 같은 기능! - type : 어떤 형태로 이뤄진 파일인지 확인 ->..
[데이터분석] 2주차 강의노트 (3) [데이터분석] 2주차 강의노트 (1) 기본 세팅 - colab에는 한글 세팅이 안 되어 있으므로 코드로 한글 세팅을 해줘야 함 import matplotlib as mpl import matplotlib.pyplot as plt %config InlineBackend.figure_format = 'retina' !apt -qq -y in.. yeahhh.tistory.com [데이터분석] 2주차 강의노트 (2) * 해당 자료는 스파르타코딩 데이터분석 종합반 수업 강의를 정리한 겁니다. 스파르타에서 제공한 데이터베이스를 사용했습니다. 워드 클라우드 - 입력 : from wordcloud import WordCloud - 워드 클라우 yeahhh.tistory.com * 해당 자료는 스파르타코딩 데이터분석..
[데이터분석] 2주차 강의노트 (2) * 해당 자료는 스파르타코딩 데이터분석 종합반 수업 강의를 정리한 겁니다. 스파르타에서 제공한 데이터베이스를 사용했습니다. 워드 클라우드 - 입력 : from wordcloud import WordCloud - 워드 클라우드를 만들려면 띄어쓰기를 기준으로 단어들이 구분되는 문자열로 변환해야 함 test_list = ['바나나', '전화기', '바나나', '바나나', '사과', '사과', '딸기', '메론', '수박', '수박', '토마토', '토마토', '전화기', '전화기', '전화기'] (X) test_str = '바나나 전화기 바나나 바나나 사과 사과 딸기 메론 수박 수박 토마토 토마토 전화기 전화기 전화기' (O) - 각 분야의 뉴스 본문 단어를 하나의 리스트로 이어주는 작업을 할 때는 hsta..