| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 데이터분석
- 데이터사시언티스트 #데이터 #모두의연구소
- 데이터싸이언티스트
- 아나콘다3
- 모두의연구소
- python
- 아이펠톤
- nosql
- GCP
- MongoDB
- 아나콘다설치
- jupyter
- 데이터사이언티스트
- 데이터
- anaconda3
- 데이터전처리
- 커널
- 데이터분석부트캠프
- 가상환경설정
- 가상환경만들기
- 데이터분석환경
- 데이터사이언티스트 #데이터 #모두의연구소 #데이터분석부트캠프
- Today
- Total
목록Python (6)
EH_dream
데이터 분석을 조금만 하다 보면 패키지 버전 충돌, 환경 꼬임, “어제는 됐는데 오늘은 왜 안 되지?” 같은 문제를 한 번쯤 겪게 된다. 프로젝트가 여러 개라면 더더욱 그렇다.그래서 가상환경(virtual environment)이 필요하다.가상환경은 말 그대로 프로젝트별로 독립된 작업 공간이라고 할 수 있다.예를들어 A 라는 프로젝트에서 pandas 2.2를 쓰고 B 프로젝트에서는 pandas 1.5를 쓰고 싶은데 두 버전이 충돌하는 순간들이 있다. 이럴 때 각 프로젝트마다 가상환경을 따로 만들면 각각 완전히 분리된 공간에서 작업할 수 있다.아나콘다를 설치하면 기본 환경인 base가 자동 생성된다. 여기엔 conda 자체와 기본 Python만 들어있고 패키지를 추가로 설치하면 금방 지저분해진다. 그..
오늘은 데이터를 시각화할 때 사용하는 matplotlib와 seaborn에 대해서 정리를 해볼 예정이다.kaggle에서 Titanic 필사를 통해 시각화하는 python 코드를 많이 사용해서인지 어렵거나 복잡하지는 않았다.처음에는 필사하는 것이 많이 도움이 될까라고 생각이 들었는데 오늘 학습에서 시각화할 때 익숙한 부분들이 많아서 오히려 어렵지 않았던 것 같다. 예습이 많은 도움이 된다는 것을 다시한번 깨달았기 때문에 오늘 블로그를 쓰고 나면 내일 배울 통계자료를 예습을 해야겠다. 우선 matplotlib은 기본적인 시각화 라이브러리로 figure 객체와 subplots 등 개요를 작성하여 사용한다.파이썬에서 그래프를 그릴 때 가장 많이 쓰인다고 하고 ChatGPT가 알려준 간단한 예제이다. import..
요즘은 Python으로 원하는 데이터 프레임을 얻기위해 결측치를 제거하고 이상치를 파악해서 처리하고 스케일링 등을 하는 공부를 하고있다. 수업을 진행하면서 캐글 필사도 열심히 하는 중인데 생각보다 반복되는 작업들 다양한 방식들과 시각화 하는 방법들도 점점 이해가되고 더 흥미롭게 느껴지는 것 같다. 오늘은 One hot encoding에 대해서 학습을 했는데 잘 이해되지 않은 부분을 다시한번 정리해봐야겠다. 원-핫 인코딩이란 범주형 데이터를 머신러닝 알고리즘이 이해할 수 있도록 수치형으로 변환하는 방법이다.쉽게 말하면 문자열로 된 데이터들은 컴퓨터가 이해하지 못하므로 숫자로 변환하는 것이다.One이라고 표현한 이유는 해당하는 값만 1로 표시해서 인것같다. 그리고 문자열을 숫자로 단순히 사과는 1이고 바나나..
Dictionary오늘은 딕셔너리에 대해 정리하면서 버전 차이에서 몰랐던 점을 한번 더 학습할 수 있었다.계속 업데이트를 하면서 변화한다는 점이 계속 흥미로우면서도 공부를 하면서 헷갈릴 수 있기 때문에 더 확실하게 공부하는 습관을 들여야겠다는 생각을 했다. 딕셔너리의 기본 개념키와 값의 (Key-Value) 쌍으로 데이터를 저장한다.중괄호 { } 를 사용해 key : value 형태를 넣고 콤마로 구분한다.순차적으로 요소를 꺼낼 수 없고 key를 통해 Value를 얻는다.Python 3.7 이후 부터는 딕셔너리에 순서가 있다.중복된 키(Key)는 사용할 수 없고 값(Value)는 중복이 가능하다. 주요 기능메서드 / 문법설명dict.get(key)값 가져오기 (에러 방지)dict.keys()모든 키..
파이썬에서 리스트와 튜플형에 대해서 정리해볼 예정이다.리스트와 튜플은 서로 비슷한 기능을 하면서도 다른 기능을 하는 자료형중에 하나이다.자료형에서는 괄호로 구분을 두는것이 흥미로웠는데 크게 리스트, 튜플, 딕셔너리, 집합으로 구분할 수 있다.그중에서도 리스트와 튜플의 특징와 차이점을 정리했다. 리스트_list 리스트대괄호 [ ] 를 사용하여 생성한다.다양한 자료형을 혼합 가능하다.순서가 있어 인덱싱과 슬라이싱이 가능하다.요소들을 변경이 가능하다.리스트는 파이썬에서 가장 많이 사용하는 자료형 중 하나이다.리스트 주요 메서드주요 메서드 표 정리append(x)x를 리스트 끝에 추가insert(i, x)i 위치에 x 삽입remove(x)리스트에서 x 제거pop()마지막 요소 제거 및 반환sort()리스트 정..
파이썬 기초학습을 마치면서 파이썬의 기초중에 자료형의 종류를 대부분 제일 먼저 접하게 되는 것 같다.그래서 나중에 잘 기억이 나지 않는다면 찾아보기 위해 블로그에 정리를 해보려고 한다. 자료형중 숫자형과 문자열에 대해 간단히 정리한 내용이다. 숫자형숫자 자료형은 정수형과 실수형으로 나누어진다. 숫자 자료형은 연산시 파이썬 규칙이 있다.수학 연산자를 사용하여 계산을 할 수 있다. - 정수형_Integer * int라고 표현한다. * 0을 포함한 정수를 뜻한다. - 실수형_Float * float 라고 표현한다. * 소수점이 포함된 숫자로 실수를 뜻한다. 2. 숫자 연산하기정수와 정수를 더하면 정수가 나온다.실수와 실수..