TRINO: TRINO для инженеров данных

Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:
Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
Разумно планировать Join-ы.
Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).
Цель курса:
Разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.
Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).
Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),