Bigdata SQL: Spark SQL

Spark SQL allows querying structured and unstructured data within Spark, using SQL. Spark SQL can be used from within Java, Scala, Python, and R. It provides a uniform interface to access a variety of data sources and file formats, such as Hive, HBase, Cassandra, Avro, Parquet, ORC, JSON, and relational data sets. Spark SQL reuses the Hive metastore with access to existing Hive data, queries, and UDFs. Spark SQL includes a cost-based optimizer and code generation to make queries fast and scales to large data
sets and complex analytic queries.

Spark SQL позволяет запрашивать структурированные и неструктурированные данные в Spark с помощью SQL. Spark SQL можно использовать из Java, Scala, Python и R. Он предоставляет единый интерфейс для доступа к различным источникам данных и форматам файлов, таким как Hive, HBase, Cassandra, Avro, Parquet, ORC, JSON и реляционные файлы. наборы данных. Spark SQL повторно использует хранилище метаданных Hive с доступом к существующим данным, запросам и пользовательским функциям Hive. Spark SQL включает оптимизатор на основе затрат и генерацию кода для ускорения запросов и масштабирования до больших данных
наборы и сложные аналитические запросы.