Parquet-fil är en hdfs-fil som måste innehålla metadata för filen. Detta gör det möjligt att dela upp kolumner i flera filer, samt att ha en enda metadatafil som refererar till flera parkettfiler. Metadata inkluderar schemat för data som lagras i filen.
Hur skapar jag ett schema för en parkettfil?
För att generera schemat för parkettprovdata, gör följande:
- Logga in på Haddop/Hive-rutan.
- Det genererar schemat i stdout enligt följande: -------------- [~] parkettverktygsschema abc.parquet. meddelande hive_schema { …
- Kopiera detta schema till en fil med. parkett/. par extension.
Stöder parkett schemautveckling?
Schema Merging
Like Protocol Buffer, Avro och Thrift, Parquet stöder också schemautveckling Användare kan börja med ett enkelt schema och gradvis lägga till fler kolumner i schemat efter behov. På så sätt kan användare sluta med flera parkettfiler med olika men ömsesidigt kompatibla scheman.
Har parkettfiler datatyper?
Parquet-fildatatyper mappas till transformationsdatatyper som Data Integration Service använder för att flytta data över plattformar. Parkett-schemat som du anger för att läsa eller skriva en Parkett-fil måste vara i små bokstäver.
Vad är strukturen på parkettfilen?
Parquet-filer är sammansatta av radgrupper, sidhuvud och sidfot Varje radgrupp innehåller data från samma kolumner. Samma kolumner lagras tillsammans i varje radgrupp: Denna struktur är väl optimerad både för snabb frågeprestanda och låg I/O (minimerar mängden data som skannas).