미래를 예측하는 데이터분석가

[인프런] BigQuery (SQL) 입문 #2 데이터 탐색 - 조건, 추출, 요약 본문

시스템 & 데이터베이스/SQL

[인프런] BigQuery (SQL) 입문 #2 데이터 탐색 - 조건, 추출, 요약

잘하다연 2024. 12. 4. 19:44

강의 수강 일자 : 24.12.04

데이터를 활용하는 과정

  • 문제 정의 - 데이터 탐색 - 단일/ 다량 자료 (연결 과정)

→ 이후, 조건(필터링), 추출(시간, 장소, 특정 데이터), 변환, 요약(집계)

  • 데이터 결과를 검증 필요

→ 처음 예상과 다르게 나온 결과가 있을 수 있음

→ 피드백 활용

  • 데이터 탐색과 결과 검증에서 SQL 사용
  • 문제 정의가 매우 중요(문제 정의, 가정 시) → MECE(중복이 없고 상호배제적)
  • 지표 정의 (Metric)해 가설을 정해 데이터 추출하는 것이 중요 !!!

회사에 존재할 수 있는 데이터 예시

  1. 서비스에 사용될 DB
  • 유저, 배송, 물건
  1. 앱/웹 로그 데이터
  • 회원가입-페이지 확인-컨텐츠 확인 등의 데이터(과정을 알 수 있는 데이터)
  1. 공공 데이터, 서드파티 데이터
  • 날씨, 페이스북 광고 데이터

→ 1번은 회사에서 대부분 가지고 있음

→ 2번은 구글, Firebase(앱)에서 데이터를 보통 수집함

포켓몬 세상엔 어떤 데이터가 존재할까?

→ 데이터 정리 및 ERD 그리기

2-3 데이터 탐색(SELECT, FROM, WHERE)

“*” = 모든 컬럼을 출력

빅쿼리에서 1TB 6달러이기 때문에 ROW가 많으면 *로 모든 컬럼 출력은 비용 많이 들어 비추

→ 현업에선 데이터를 줄여놓고 SELECT하고 데이터 확인 차원에서 사용

  • EXCEPT(제외할 컬럼) : 특정 컬럼만 뽑기 위해 사용

빅쿼리 데이터탐색 예시

강의 수강 일자 : 24.12.04

  •  
  1. 앱/자 컬럼 출력은 비용 많이 들어 비추

→ 현업에선 데이터를 줄여놓고 SELECT하고 데이터 확인 차원에서 사용

  • EXCEPT(제외할 컬럼) : 특정 컬럼만 뽑기 위해 사용

빅쿼리 데이터탐색 예시

강의 수강 일자 : 24.12.04

데이터를 활용하는 과정

  • 문제 정의 - 데이터 탐색 - 단일/ 다량 자료 (연결 과정)

→ 이후, 조건(필터링), 추출(시간, 장소, 특정 데이터), 변환, 요약(집계)

  • 데이터 결과를 검증 필요

→ 처음 예상과 다르게 나온 결과가 있을 수 있음

→ 피드백 활용

  • 데이터 탐색과 결과 검증에서 SQL 사용
  • 문제 정의가 매우 중요(문제 정의, 가정 시) → MECE(중복이 없고 상호배제적)
  • 지표 정의 (Metric)해 가설을 정해 데이터 추출하는 것이 중요 !!!

회사에 존재할 수 있는 데이터 예시

  1. 서비스에 사용될 DB
  • 유저, 배송, 물건
  1. 앱/웹 로그 데이터
  • 회원가입-페이지 확인-컨텐츠 확인 등의 데이터(과정을 알 수 있는 데이터)
  1. 공공 데이터, 서드파티 데이터
  • 날씨, 페이스북 광고 데이터

→ 1번은 회사에서 대부분 가지고 있음

→ 2번은 구글, Firebase(앱)에서 데이터를 보통 수집함

포켓몬 세상엔 어떤 데이터가 존재할까?

→ 데이터 정리 및 ERD 그리기

2-3 데이터 탐색(SELECT, FROM, WHERE)

“*” = 모든 컬럼을 출력

빅쿼리에서 1TB 6달러이기 때문에 ROW가 많으면 *로 모든 컬럼 출력은 비용 많이 들어 비추

→ 현업에선 데이터를 줄여놓고 SELECT하고 데이터 확인 차원에서 사용

  • EXCEPT(제외할 컬럼) : 특정 컬럼만 뽑기 위해 사용

빅쿼리 데이터탐색 예시