import findspark

findspark.init('/home/hak/spark-2.4.5-bin-hadoop2.7/')

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('MissingData').getOrCreate()

df = spark.read.csv('ContainsNull.csv',header=True, inferSchema=True)

df.show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp2| null| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

df.printSchema()

root
 |-- Id: string (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sales: double (nullable = true)

df.na.drop().show()  #not availiable

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp4|Cindy|456.0|
+----+-----+-----+

#두개이상 값을 갖고있는 행을 가져오고 싶으면
df.na.drop(thresh=2).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

#subset으로 특정 열부분만 삭제할 수 있다.
df.na.drop(subset=['Sales']).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

df.na.drop(how='any').show()
#하나라도 Null값이라면

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp4|Cindy|456.0|
+----+-----+-----+

df.na.drop(how='all').show()
#전체가 Null값이면

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp2| null| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

#Null 부분에 값을 넣고 싶으면
#fill안에 값이 스트링이므로 스키마가 String인 Null값인 곳만 채워진다.
df.na.fill('NEW VALUE').show()

+----+---------+-----+
|  Id|     Name|Sales|
+----+---------+-----+
|emp1|     John| null|
|emp2|NEW VALUE| null|
|emp3|NEW VALUE|345.0|
|emp4|    Cindy|456.0|
+----+---------+-----+

df.printSchema()

root
 |-- Id: string (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sales: double (nullable = true)

#숫자를 넣으면 스키마가 숫자인 부분만 적용된다.
df.na.fill(0).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|  0.0|
|emp2| null|  0.0|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

#특정 칼럼에만 Null값을 바꾸고 싶으면
df.na.fill('No Name',subset=['Name']).show()

+----+-------+-----+
|  Id|   Name|Sales|
+----+-------+-----+
|emp1|   John| null|
|emp2|No Name| null|
|emp3|No Name|345.0|
|emp4|  Cindy|456.0|
+----+-------+-----+

from pyspark.sql.functions import mean

mean_value = df.select(mean(df['Sales'])).collect()

mean_value[0]  
# mean_value[0][0]    <- 400.5 값만 가져오고 싶을 때

Row(avg(Sales)=400.5)

mean_sales = mean_value[0][0]

df.na.fill(mean_sales, subset=['Sales']).show()   #평균값을 구하고 null값에 평균값을 대입

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|400.5|
|emp2| null|400.5|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

#한꺼번에 작성하는 방법
df.na.fill(df.select(mean(df['Sales'])).collect()[0][0],subset=['Sales']).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|400.5|
|emp2| null|400.5|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+

[pandas/Selenium/BeautifulSoup4] 야구 시즌 기록 데이터(STATIZ) 웹 크롤링 후 DataFrame 만들기. DataFrame을 csv로 만들고 csv파일 로컬에 저장하기! (feat. Colab) (6)	2020.09.08
[pandas] 공공 데이터 XML 크롤링을 통해 dataFrame으로 만들어보기 (0)	2020.09.04
[pandas] 코로나 수치 예측하기 (feat. Linear Regression) (0)	2020.05.03
spark를 이용해서 Sales 정보 다루기(using groupBy, orderBy) (0)	2020.04.23
spark를 이용해서 삼성전자 주식 분석하기 (0)	2020.04.15

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

EI_HJ

spark를 이용해서 Missing Data다루기

'빅데이터 | 머신러닝 | 딥러닝 > 빅데이터 분석' 카테고리의 다른 글

'빅데이터 | 머신러닝 | 딥러닝/빅데이터 분석'의 다른글

티스토리툴바

spark를 이용해서 Missing Data다루기

'빅데이터 | 머신러닝 | 딥러닝 > 빅데이터 분석' 카테고리의 다른 글

'빅데이터 | 머신러닝 | 딥러닝/빅데이터 분석'의 다른글

관련글

티스토리툴바