Main Content

parquetinfo

Parquet ファイルに関する情報の取得

説明

ParquetInfo オブジェクトには、ファイル サイズ、変数の名前と型、エンコード、圧縮方式など、Parquet ファイルに関する情報が含まれます。Parquet ファイルに関する情報を取得するには、関数 parquetinfo を使用して ParquetInfo オブジェクトを作成します。

作成

説明

info = parquetinfo(filename)filename で指定された Parquet ファイルの info オブジェクトを返します。

入力引数

すべて展開する

Parquet ファイルの名前。文字ベクトルまたは string スカラーとして指定します。ParquetInfo は Parquet 1.0 ファイルまたは Parquet 2.0 ファイルで機能します。

ファイルの場所に応じて、filename は次のいずれかの形式にできます。

場所

形式

現在のフォルダー、または MATLAB® パス上のフォルダー

ファイル名を filename で指定します。

例: 'data.parquet'

フォルダー内のファイル

ファイルが現在のフォルダーまたは MATLAB パス上のフォルダーにない場合は、絶対パス名または相対パス名を指定します。

例: 'C:\myFolder\data.parquet'

例: 'myDir\myFile.ext'

インターネット URL

ファイルをインターネットの Uniform Resource Locator (URL) として指定する場合、filename'http://' または 'https://' のプロトコル タイプを含め、最後に '?raw=true' を付けなければなりません。

例: 'http://hostname/path_to_file/my_data.parquet?raw=true'

リモートの場所

リモートの場所に保存されたファイルの場合、filename は次の形式で指定されたファイルの絶対パスを含まなければなりません。

scheme_name://path_to_file/my_file.ext

リモートの場所に基づいて、scheme_name には次の表の値のいずれかを指定できます。

リモートの場所scheme_name
Amazon S3™s3
Windows Azure® Blob Storagewasb, wasbs
HDFS™hdfs

詳細については、リモート データの操作を参照してください。

例: 's3://bucketname/path_to_file/data.parquet'

データ型: char | string

プロパティ

すべて展開する

この プロパティ は読み取り専用です。

Parquet ファイルへの絶対パス。string スカラーとして指定します。

データ型: string

この プロパティ は読み取り専用です。

ファイル サイズ (バイト単位)。double として指定します。

データ型: double

この プロパティ は読み取り専用です。

行グループの数。double として指定します。

データ型: double

この プロパティ は読み取り専用です。

各行グループの行数。double として指定します。

データ型: double

この プロパティ は読み取り専用です。

変数名。string 配列として指定します。Parquet ファイルに N 変数が含まれている場合、VariableNames は変数の名前が含まれるサイズが 1N 列の配列です。

データ型: string

この プロパティ は読み取り専用です。

変数のデータ型。string 配列として指定します。Parquet ファイルに N 個の変数が含まれている場合、VariableTypes は各変数のデータ型の名前が含まれるサイズが 1N 列の配列です。配列内の各要素は、Parquet ファイル内の対応する変数がマッピングする MATLAB のデータ型の名前です。

データ型: string

この プロパティ は読み取り専用です。

変数圧縮アルゴリズム。string 配列として指定します。Parquet ファイルに N 個の変数が含まれている場合、VariableCompression は圧縮アルゴリズム名が含まれるサイズが 1N 列の配列です。配列内の各要素は、Parquet ファイル内でその変数を圧縮するのに使用される圧縮アルゴリズムに対応します。サポートされている圧縮アルゴリズムの一覧については、parquetwrite を参照してください。

データ型: string

この プロパティ は読み取り専用です。

変数のエンコード。string 配列として指定します。Parquet ファイルに N 個の変数が含まれている場合、VariableEncoding はエンコード スキーム名が含まれるサイズが 1N 列の配列です。配列内の各要素は、Parquet ファイル内でその変数をエンコードするのに使用されるエンコード スキームに対応します。サポートされているエンコードの一覧については、parquetwrite を参照してください。

データ型: string

この プロパティ は読み取り専用です。

Parquet バージョン。"1.0" または "2.0" のいずれかとして指定します。

データ型: string

すべて折りたたむ

関数 parquetinfo を使用して、このファイルに関する情報が含まれる ParquetInfo オブジェクトを作成します。

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/filer/batfs1904-0/Bdoc24a.2511836/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: ["Region"    "OutageTime"    "Loss"    "Customers"    "RestorationTime"    "Cause"]
          VariableTypes: ["string"    "datetime"    "double"    "double"    "datetime"    "string"]
    VariableCompression: ["snappy"    "snappy"    "snappy"    "snappy"    "snappy"    "snappy"]
       VariableEncoding: ["plain"    "plain"    "plain"    "plain"    "plain"    "plain"]
                Version: "2.0"

ファイル内の 3 番目の変数の名前、型、圧縮方式を表示します。

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"

拡張機能

バージョン履歴

R2019a で導入

すべて展開する