대규모 데이터 처리와 디버깅디버깅의 어려움: 작은 데이터셋에서는 작동하던 것이 큰 규모에서는 메모리 관리 문제(버퍼링, 객체 생성), 과도한 중간 데이터, 손상된 입력 레코드 등으로 인해 실패할 수 있음데이터의 현실: 실제 데이터는 지저분하고(messy) 일관성이 없음데이터센터: 데이터센터 자체가 하나의 거대한 컴퓨터로 비유됨.MapReduce의 한계: 맵리듀스는 훌륭하지만, 데이터센터 컴퓨터를 제어하기엔 '어셈블리'처럼 너무 저수준의 방식임.고수준 언어의 필요성 Hadoop과 Java: 하둡은 대용량 데이터 처리에 좋지만, 모든 것을 Java로 작성하는 것은 장황하고(verbose) 느림. 데이터 과학자들은 Java 작성을 선호하지 않음.해결책: 더 높은 수준의 언어와 컴파일러를 설계하는 것.Hive와..