제 블로그에서 설치한 spark는 job EventLog를 HDFS상에 저장합니다.

오래된 로그들을 삭제 해주지않으면 꽤 큰 용량을 차지하기때문에, 삭제 주기를 설정하는 법을 알아보겠습니다.

 

 

vi ${SPARK_HOME}/conf/spark-defaults.conf

 

vi ${SPARK_HOME}/conf/spark-defaults.conf

# 삭제 활성화
spark.history.fs.cleaner.enabled        true

# 7일에 한 번 삭제 대상인지 확인
spark.history.fs.cleaner.maxAge 7d

# 하루 이상 지난 로그파일들 삭제 대상
spark.history.fs.cleaner.interval       1d

 

참조: https://spark.apache.org/docs/3.2.3/monitoring.html

반응형

+ Recent posts