Bigdata SQL: Unstructured Data

Данные, не связанные со структурой или метаданными, классифицируются как неструктурированные. Текстовые данные (например, электронная почта, блоги, сообщения вики, документы Word и PDF, твиты в социальных сетях) или нетекстовые данные (например, изображения, аудио, видео) помечаются как неструктурированные.

Чаще всего неструктурированные данные содержат шум, и одна из основных проблем при работе с ними – их очистка, прежде чем их можно будет использовать для аналитики. Например, перед выполнением обработки естественного языка (NLP) для текстовых данных данные должны быть токенизированы (т. Е. Должны быть удалены стоп-слова и применены алгоритмы выделения корней), чтобы привести их в форму, в которой можно применять сложные алгоритмы для создания смысл вне текстового содержания.

В отличие от SQL для структурированных данных, SQL для полуструктурированных и неструктурированных данных требует преобразования в структуру, которую механизмы SQL могут интерпретировать и использовать. Аббревиатура SQL означает «язык структурированных запросов», что означает, что это язык, который работает со структурированными данными.

Такие технологии, как Apache Drill и SparkSQL, развивались и развиваются дальше, чтобы предоставить широкие возможности SQL для полуструктурированных данных, таких как JSON.