Python/데이터분석 9

2024-06-03 8. 떡볶이 프렌차이즈의 입점전략

import pandas as pddf = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')dfdf.info()shop = ['엽기떡볶이', '죠스떡볶이', '신전떡볶이', '청년다방', '감탄떡볶이']# 파리바게트(파리바게뜨) 데이터 필더링# contains(): 특정 문자열 포함 여부에 따라 True, False를 반환 data = df['상호명'].str.contains('파리바게트|파리바게뜨')df_paris = df.loc[data, ['상가업소번호', '상호명', '경도', '위도']].copy()df_paris..

2024-06-03 7. 서울시 따릉이 API 활용

1. 따릉이 APIhttps://www.bikeseoul.com/app/station/getStationRealtimeStatus.doimport requestsimport foliumimport jsonimport pandas as pdimport warningswarnings.filterwarnings('ignore') 1-1. 데이터 요청하기targetSite = 'https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do'request = requests.post(targetSite, data={'stationGrpSeq':'ALL'})print(request)# print(request.text) 1-2. json 데이터 처리하기json..

2024-05-28 6. 전국 도시공원 데이터

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# incoding 방식이 달라서 encoding으로 방식을 맞춰주고 실행하면 파일이 열린다park = pd.read_csv("/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/전국도시공원표준데이터.csv", encoding="ms949")park.head()park.shape!sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rfplt.rc("font", family="NanumBarunG..

2024-05-28 상권별 업종 밀집 통계 데이터

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltshop = pd.read_csv("/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/shop_201806_01.csv")shop  pd.set_option("display.max_columns", 40)shop.head()  shop.info() shop.columnsview_columns = ["상호명", "지점명", "상권업종대분류명", "상권업종중분류명", "상권업종소분류명",                "시도명", "시군구명", "도로명", "도로명주소", "경도", "위도"]shop = shop[view_columns]shop.hea..

2024-05-27 가상 온라인 쇼핑몰 데이터

import pandas as pdretail = pd.read_csv('/content/drive/MyDrive/KDT/5. 데이터 분석/데이터/OnlineRetail.csv')retailretail.info()  컬럼InvoiceNo: 주문 번호StockCode: 상품 코드Description: 상품 설명Quantity: 주문 수량InvoiceDate: 주문 날짜UnitPrice: 상품 가격InvoiceDate: 고객 아이디Country: 고객 거주지역(국가)# 각 컬럼당 null이 몇 개 있는지 확인 retail.isnull().sum()# 비회원/탈퇴/휴면회원 제거retail = retail[pd.notnull(retail['CustomerID'])]retaillen(retail..

2024-05-27 Matplotlib

1. Matplotlib파이썬 기반 시각화 라이브러리한글에 대한 지워이 완벽하지 않음pandas와 연동이 용이함Matplotlib 공식 홈페이지 !pip install matplotlibimport matplotlib.pyplot as plt # MATLAB과 비슷하게 명령어 스타일로 동작하는 함수들의 모음plt.plot([1, 2, 3, 4]) # 리스트의 값들은 y값들이며, X값은 자동으로 만들어줌plt.show()# X값 [1,2,3,4]# Y값 [1,5,10,15]plt.plot([1, 2, 3, 4], [1, 5, 10, 15])plt.show() numpy 사용 하기import numpy as npdata = np.arange(1, 100)plt.plot(data)plt.show()# 두개 선..

2024-05-24 판다스

문제1혈액형별로 그룹을 맺어, 키의 평균값을 확인[1df.groupby('blood')['height'].mean()  bloodA 171.090909AB 179.000000B 165.875000O 170.233333Name: height, dtype: float64 문제2혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인1 df.groupby(['blood', 'gender'])['height'].mean() blood genderA 남자 179.000 여자 164.500AB 남자 179.000B 여자 165.875O 남자 179.000 ..

2024-05-23 판다스

1. 판다스(Pandas)데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 테이터나 다양한 형태의 데이터를 쉽게 처리하고 분석데이터프레임(DataFrame)이라는 자료구조를 제공!pip install pandasimport pandas as pd 2. Series 와 DataFrame2-1. SeriesSeries는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음값은 넘파이의 ndarray 기반으로 저장됨Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수 , 문자열 등 다양한 형태의 데이터를 담을 수 있음idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']data = [67, 75..

2024-05-22 넘파이

1. 넘파이(Numpy)파이썬에서 사용되는 과학 및 수학 연산을 위한 강력한 라이브러리주로 다차원 배열을 다루는 데에 특화되어 있어, 데이터 분석, 머신러닝, 과학계산 등 다양한 분야에서 널리 사용넘파이 배열 C 언어로 구현되어 있어 연산이 빠르고 효율적넘파이 배열은 큰 데이터셋에서 수치 연산을 수행할 때 뛰어난 성능을 보이며, 메모리 사용을 최적화하고 효율적으로 관리!pip install numpyRequirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (1.25.2) 2. 넘파이의 주요 특징과 기능 2-1. 다차원 배열(N-dimensional array)넘파이의 핵심을 다차원 배열 ndarrayndarray는 동일..