[Infra] 파이썬(Python) 판다스(pandas) parquet 파일로 DB 테이블 생성

업데이트:

파이썬(Python) 판다스(pandas) parquet 파일로 DB 테이블 생성

판다스 하이브 테이블
int64 bigint
float64 double
object string
  • 파티션을 한번 만들었다면, 나중에 parquet 파일만 지우면 되는게 아니라 파티션 자체를 지워줘야한다.
  • json 파일 값에 문자열 (백슬래쉬)가 포함된 \n 이 포함되어도 parquet 파일로 읽는 것에는 상관없다.
  • 특정 열이 숫자만으로 이루어진줄 알았으나, 어떤 값은 323.0 같은 숫자, 어떤 값은 6FC32G 같은 문자열이 포함되었다. 이런 경우는 string으로 처리해야한다.
  • 열이 많을 땐 우선 열 하나 짜리 parquet 파일을 생성하고 테이블을 만들어봐라.
  • 판다스에서 정수를 처리할때는 기본적으로 int64로 처리된다, 그러므로 이에 대응되는 하이브 테이블을 만들때는 bigint를 써야한다. 만약 bigint가 아니라 int를 쓰고 싶다면 판다스의 int64 정수를 int32로 바꾸는 작업을 해줘야한다.

로컬에서 HDFS로 보내기

$ hdfs dfs -copyFromLocal {출발지} {목적지}
$ hdfs dfs -copyFromLocal /파일경로/어쩌고/저쩌고/abc.parquet /파일겨엉로/이러쿵/저러쿵(폴더이름)