일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Current
- 보안
- window server
- Numpy
- pandas
- 데이터 시각화
- node.js
- OS
- 소프트웨어 장인
- MSE
- 데이터 랭글링
- 암호
- 선형회귀
- tls
- 코틀린
- it책
- Active Directory
- windows server
- DataFrame
- ai
- git에러
- AI기초
- 도서리뷰
- React개념
- nodejs
- react
- LDAP
- 경사강하법
- 데이터 랭글링 예제
- git
- Today
- Total
목록AI (5)
blueforestDEV

선형 회귀(Linear Regression)는 머신 러닝과 통계에서 매우 기본적이면서 중요한 예측 모델 중 하나로, 데이터 사이의 관계를 직선 형태의 수학적 모델로 나타내는 방법이다. 이 모델은 주어진 데이터의 특징(독립 변수, X)과 예측하려는 값(종속 변수, Y) 간의 관계를 찾아낸다.선형 회귀는 이를 통해 미래에 대한 예측을 할 수 있도록 도와준다. 선형회귀란?선형 회귀(Linear Regression)에서 "회귀"는 원래의 의미에서 확장되어 데이터 간의 관계를 예측할 수 있는 선형적인 패턴을 찾아가는 방법을 의미한다. 선형 회귀는 데이터 사이의 선형적인 관계를 찾아내고, 주어진 독립 변수에 따른 예측 값을 기준으로 삼아 회귀 직선에 "가깝게" 예측해보는 과정이다.따라서 선형 회귀에서는 특정 입력 ..
데이터 랭글링은 데이터 과학과 분석에서 필수적인 과정으로, 원시 데이터를 분석에 적합한 형식으로 준비하는 작업을 의미한다. 이 과정은 데이터를 청소하고 구조화하는 것을 포함하며, 분석에 필요한 데이터를 더 쉽게 다룰 수 있도록 도와준다. 데이터 랭글링을 거치지 않은 데이터는 종종 불완전하거나 부정확할 수 있어서, 올바른 분석 결과를 도출해내기 어렵다. 데이터 랭글링의 주요 단계는 다음과 같다. 1. 데이터 정제: 원시 데이터는 누락된 값, 중복된 값, 비정상적인 데이터(이상치) 등 불완전한 부분이 있을 수 있다. 이를 해결하기 위해 다음과 같은 작업을 수행한다누락된 데이터 처리: 결측값을 평균 값으로 채우거나, 특정 규칙에 따라 제거 또는 대체할 수 있다.중복 데이터 제거: 중복된 데이터 행을 찾아..

데이터 시각화데이터를 활용하여 작업할 때 데이터의 분포를 확인하는 것은 중요한 요소이다.대부분의 사람들은 3차원 이상의 데이터를 시각화하는 것이 어렵기 때문에, 데이터를 시각화 하는 작업은 데이터를 이해하고 결과를 도출해내는 데에 필수적인 요소 중 하나이다. Python에서 데이터를 시각화할 수 있는 라이브러리는 대표적으로 세가지가 있으며, 이 글에서 소개한다. 1. Pandas visualization module Pandas에서 제공되는 데이터프레임과 시리즈 같은 구조화된 데이터를 다루는 데 매우 편리하다. Pandas에는 자체 시각화 기능이 내장되어 있어 plot() 메서드를 사용하여 쉽게 그래프를 그릴 수 있는 장점이 있다. 또한, Pandas 시각화 모듈은 Matplotlib을 기반으로 하고..
Pandas란?Pandas는 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리로, 표 형식의 데이터를 다루는 데에 최적화 되어있다.데이터프레임과 시리즈라는 두 가지 기본 데이터 구조를 사용해 엑셀, SQL 데이터베이스와 비슷한 방식으로 데이터를 처리할 수 있게 해주며, 특히 대용량 데이터 분석에 매우 유용하게 쓰인다. Pandas의 데이터 구조Series: 레이블이 있는 1차원 배열이다. 엑셀의 하나의 열이나 파이썬의 리스트와 비슷하지만 각 데이터에 고유한 레이블을 가질 수 있다는 점이 장점이다.import pandas as pd s = pd.Series([10, 20, 30], index=['a', 'b', 'c']) print(s) #결과 a 10 b 20 c 30 dtype: int64DataF..
Numpy란?NumPy는 Numerical Python의 약자로, 대규모 데이터 처리에 적합한 파이썬 라이브러리이다. NumPy의 주요 특징 5가지다차원 배열(ndarray): NumPy의 가장 중요한 기능은 다차원 배열이다. ndarray는 동일한 데이터 타입을 가진 요소들의 컨테이너로, 다차원 배열을 처리하는데에 적합하다.빠른 연산 속도: NumPy는 배열 연산을 벡터화하여 성능을 높인다. 즉, 반복문을 사용하지 않고 배열 간의 연산을 빠르게 처리할 수 있다. 벡터화란?벡터는 크기와 방향을 가진 수학적 개념이며, 프로그래밍에서는 1차원 배열로 사용됨.벡터화는 데이터 연산에서 반복문을 사용하지 않고, 배열 또는 벡터 단위로 한 번에 연산을 수행하는 방식이다.브로드캐스팅(Broadcasting): 크기가..