본문 바로가기

데이터분석5

boxplot / 따릉이 실시간 데이터 예제 1. 데이터 이상치 알아보기- boxplot 박스 플롯(boxplot)은 데이터의 분포를 시각적으로 나타내는 통계 그래픽스입니다. 주로 데이터의 중앙값, 사분위수, 이상치 등을 파악하는 데 사용됩니다. 박스 플롯은 다음과 같은 구성 요소로 이루어져 있습니다. 상자(Box): 데이터의 사분위수(Q1, Q2, Q3)를 나타냅니다. 상자의 아래 경계는 Q1이고1/4분위수 즉 25%값을 나타냅니다. 상자 내부의 가로선은 중앙값(Q2) (50%)입니다. 상자의 윗 경계는 Q3 (75%)입니다. 수염(Whisker): 상자 위아래로 나타나는 선분으로, 전체 데이터 범위를 나타냅니다. 일반적으로 최대값과 최소값 중 1.5배 사분위 범위를 벗어나는 값은 이상치로 표시되며, 수염은 그 범위 내의 최대값과 최소값을 나타냅.. 2023. 12. 24.
판다스3 1. 데이터 프레임 합치기 concat() : 데이터를 합침 판다스 1.0.0 버전부터는 sort 매개변수의 기본값이 sort=True에서 sort=False로 변경되었습니다. sort=False일 경우 인덱스 순서가 유지되어 기존 데이터프레임의 순서대로 합쳐집니다. 하지만 명시적으로 sort=True를 설정하여 정렬을 요구하는 경우에는 인덱스에 따라 정렬이 이루어집니다. reset_index() : index를 새롭게 적용⭐ reset_index(drop = True) : 기존의 index를 없앰 pd.concat([df1, df2], axis = 1) : 같은 index를 기준으로 열을 결합함. 왼쪽 위 : pd.concat([df.1, df_copy]) / 오른쪽 위 : df.concat.reset.. 2023. 12. 8.
판다스2 1. 결측값(Null, NaN) 결측값은 데이터에서 값이 누락되거나 측정되지 않은 상태를 나타냅니다. 판다스에서는 NaN(Not a Number)로 표기된 것은 모두 결측값으로 취급합니다. 결측값은 데이터 분석 및 통계 모델링에서 문제를 일으킬 수 있으며, 이를 처리하는 방법은 중요합니다. 일반적인 접근법은 결측값을 다른 값으로 대체하거나 해당 행 또는 열을 삭제하는 것입니다. 또는 결측값을 예측하는 모델을 사용하여 대체할 수도 있습니다. 처리 방법은 데이터의 특성과 분석 목적에 따라 다를 수 있습니다. isna() / isnull() : 각 요소가 결측값인지 여부를 불리언으로 반환합니다. df.isna() df.isnull() namegroupcompanygenderbirthdayheightbloodb.. 2023. 12. 8.
MySQL 조건절과 그룹함수 1. 조건절 MySQL에서 조건절(Condition Clause)은 데이터베이스에서 원하는 데이터를 검색하거나 조작하기 위해 사용되는 중요한 구문입니다. 조건절은 주로 SELECT, UPDATE, DELETE와 같은 쿼리문에서 사용되며, 특정 조건을 만족하는 행을 선택하거나 조작하는 데 도움이 됩니다. 조건절 select 필드명1, 필드명2, ... from 테이블명 where 조건절; select * from member where userid = 'apple'; select * from member where gender ='M'; -- 특정 포인트 유저만 출력하기 select * from member where point >= 200; select * from member where point be.. 2023. 9. 20.
데이터베이스(MySQL) 1. 데이터베이스 데이터베이스(database)는 관련된 데이터를 체계적으로 저장하고, 관리하고, 검색할 수 있도록 설계된 전자적 시스템입니다. 간단히 말하면, 데이터베이스는 "정보의 보관소"와 같습니다. 데이터베이스를 사용하면 크거나 작은 양의 데이터를 안전하게 저장하고 필요할 때 쉽게 찾아낼 수 있습니다. 2. 데이터베이스 관리 시스템(DBMS) DBMS는 데이터베이스 관리 시스템(Database Management System)의 약자입니다. DBMS는 데이터베이스를 생성하고, 유지하고, 조작하기 위한 소프트웨어 도구의 집합입니다. 데이터 저장: DBMS를 사용하여 데이터를 안전하게 저장할 수 있습니다. 데이터는 테이블, 레코드, 필드의 형태로 구조화되어 저장됩니다. 데이터 검색: 사용자는 DBMS.. 2023. 9. 18.