El camino para convertirse en un creador de IA | Introducción del artículo: "¿Hay escasez de ingenieros de datos?". ¡Acelera el desarrollo de IA con Databricks Lakeflow Designer! Revoluciona el uso de datos sin código. #Lakeflow #NoCodeETL #IngenieríaDeDatos
Explicación en vídeo
¿Cambiará drásticamente la forma en que la IA usa los datos? ¿Qué es Databricks Lakeflow Designer? Una guía completa para principiantes.
¡Hola a todos! Soy John, un rostro familiar en el mundo de la tecnología de IA. ¿Han escuchado mucho últimamente la frase "los datos son el nuevo petróleo"? De hecho, los datos son un combustible esencial para el crecimiento de las empresas modernas. Sin embargo, así como el petróleo crudo no se puede utilizar tal cual, los datos deben refinarse o se desperdiciarán. Este proceso de refinación,Ingeniería de datos (una serie de tareas para recopilar, procesar y hacer que los datos sean utilizables) Sin embargo, en realidad, esto es un obstáculo importante para muchas empresas que pretenden utilizar IA.
"¿No es difícil a menos que seas ingeniero especializado?" "No tenemos suficiente personal..." Seguro que mucha gente tiene estas preocupaciones. Pero ¿y si, como por arte de magia, la IA pudiera ayudarte con esta preparación de datos, incluso sin conocimientos de programación? Hoy vamos a presentar una nueva arma secreta anunciada por Databricks que podría hacer realidad ese sueño:Diseñador de Databricks Lakeflow¡Lo explicaremos detalladamente de una manera fácil de entender incluso para aquellos que son nuevos en IA!
¿Qué es Databricks Lakeflow Designer? ~Una nueva forma de usar los datos~
En primer lugar, ¿qué es exactamente este “Databricks Lakeflow Designer”?Una herramienta de preparación de datos sin códigoFue desarrollado por Databricks, líder mundial en datos e IA. ¿Suena difícil? ¡No te preocupes!
Para ponerlo en perspectiva, Lakeflow Designer es como un asistente de organización de datos supercompetente. Basta con darle instrucciones generales, como "Quiero este tipo de datos...", y recopilará los datos y los perfeccionará hasta que sean perfectos. Este proceso de preparación de datos se denomina, en términos técnicos:ETL (Ethel) Se llama.
- ExtractoPrimero, recopilamos información (datos) que se encuentra dispersa, como bases de datos internas, almacenamiento en la nube, sitios web, etc. Es como buscar ingredientes en un campo o un mercado.
- TransformarA continuación, organizamos la información recopilada para que sea fácil de usar, eliminamos la información innecesaria y le damos forma. Esta es la parte que lleva más tiempo y consiste en el proceso de "refinar" los datos. Es similar a lavar alimentos, pelarlos y cortarlos en trozos pequeños.
- CargaFinalmente, la información, perfectamente organizada, se almacena en una ubicación designada (como un data lakehouse o un almacén de datos) para que las herramientas de análisis y los modelos de IA puedan usarla de inmediato. Es como colocar la comida cocinada cuidadosamente en un plato.
Lo bueno de Lakeflow Designer es que te permite ver el flujo del proceso ETL, es decir,Canal de datos (un resumen de la ruta de datos y los pasos de procesamiento) ASin código (un método de desarrollo de sistemas y aplicaciones sin escribir código de programación) Es sorprendente que puedas crear canales de datos complejos simplemente arrastrando y soltando componentes en la pantalla o, en algunos casos, indicando a la IA en lenguaje natural cómo quieres procesar los datos.
¿Por qué necesitamos Lakeflow Designer ahora? - Desafíos de la ingeniería de datos en la era de la IA -
Entonces, ¿por qué herramientas como esta están atrayendo la atención ahora? Es por...Cuellos de botella en la ingeniería de datosEsto está profundamente relacionado con la cuestión principal de "
La IA, especialmente la recientemente popular IA generativa, requiere grandes cantidades de datos de alta calidad para aprender de forma inteligente y tomar decisiones precisas. Sin embargo, el trabajo de ingeniería de datos necesario para preparar estos datos de alta calidad es altamente especializado y requiere mucho tiempo y esfuerzo. Los ingenieros de datos tienen una alta demanda en las empresas. Cuando su carga de trabajo se sobrecarga, no pueden preparar los datos incluso si desean avanzar con nuevos proyectos de IA, lo que ralentiza el desarrollo de la IA; esto se convierte en un cuello de botella. De hecho, en una encuesta, muchos afirmaron que «la incapacidad de los ingenieros de datos para mantenerse al día con el trabajo es un obstáculo para el avance de los proyectos de IA».
Por supuesto, siempre ha habido herramientas de procesamiento de datos de bajo código y sin código que los no expertos pueden usar, pero según Bilal Aslam, director sénior de gestión de productos en Databricks, estas herramientas a menudo no brindan los servicios que las empresas necesitan.Gobernanza (gestión y control de la calidad y seguridad de los datos) やEscalabilidad (capacidad de manejar cantidades crecientes de datos y procesamiento) En otras palabras, incluso si fuera fácil de crear, hubo muchos casos en los que surgieron dudas sobre si realmente era confiable y podía usarse para procesar datos importantes de la empresa.
Lakeflow Designer se creó para resolver este dilema. Su objetivo es permitir que analistas de datos y usuarios empresariales sin conocimientos especializados de programación creen canales de datos que puedan usarse de forma segura y fiable en entornos de producción. Esto reducirá la carga de trabajo de los ingenieros de datos y acelerará el uso de la IA en toda la empresa.
¿Qué tiene de bueno Lakeflow Designer? Características únicas
Lakeflow Designer tiene varias características atractivas que lo diferencian de las herramientas anteriores:
- Operación sin código intuitiva y fácil de entenderIncluso quienes no tienen experiencia en programación pueden diseñar flujos de datos visualmente arrastrando y soltando componentes en la pantalla. Es una interfaz visualmente comprensible.
- Equipado con un asistente de inteligencia artificial inteligenteSorprendentemente, la IA generativa puede ayudar con la creación de pipelines. Los usuarios pueden simplemente decirle a la IA en lenguaje natural (el lenguaje que hablamos habitualmente) "Quiero este tipo de datos" o "Quiero procesarlos así", y la IA puede interpretarlo y sugerir un diseño de pipeline. ¡Esto es revolucionario!
- Confiabilidad y escalabilidad de nivel empresarial:Puede parecer simple, pero en esencia...Apache Spark: un potente motor de código abierto para el procesamiento rápido de grandes cantidades de datos Se utiliza esta potente tecnología. Además, la seguridad y la calidad de los datos son...Catálogo de Unity (Catálogo de Unity: una solución unificada de gobernanza de datos proporcionada por Databricks) Esto le permite crear canales de datos confiables y escalables que puedan soportar las demandas de su negocio, no solo una herramienta de juguete.
- Facilite la colaboración en equipoEstá diseñado para facilitar la colaboración entre analistas e ingenieros de datos. Los ingenieros pueden revisar y modificar los pipelines creados por los analistas y, a su vez, los analistas pueden reutilizar las partes creadas por los ingenieros.
- Transparencia y control sobre el proceso de desarrolloLa tubería que has creado esGit (un sistema de control de versiones distribuido para registrar y rastrear el historial de cambios del código fuente del programa, etc.) Se puede vincular conDevOps (la práctica y cultura de trabajar en estrecha colaboración con equipos de desarrollo y operaciones para ofrecer valor comercial de manera rápida y continua) También facilita el flujo de lo anterior. El historial de cambios (linaje), el control de acceso, los registros de auditoría, etc., se gestionan de forma segura, para que pueda usarlo con tranquilidad.
¿Cómo funciona Lakeflow Designer? Un vistazo entre bastidores
Quizás te preguntes: "¿Cómo puede la IA ayudarte sin programar?". Aquí te explicaremos los aspectos técnicos de Lakeflow Designer de la forma más sencilla posible.
En primer lugar, como se mencionó anteriormente, el usuario opera a través de una interfaz gráfica e intuitiva. Aquí, selecciona la fuente de datos y especifica el tipo de procesamiento que desea realizar. En este punto, el asistente de IA comprende la intención del usuario, sugiere los componentes de procesamiento adecuados y le ayuda con la configuración.
Una de las principales características de Lakeflow Designer es "Canalizaciones declarativasEste es un enfoque en el que se declara (define) el tipo de datos que se desean en última instancia (Qué), en lugar de dar instrucciones detalladas sobre cómo procesarlos (Cómo), y el sistema (Lakeflow) buscará la mejor manera de lograrlo. Si se declara que se desea un delicioso arroz al curry, un excelente chef con IA se encargará de todo, desde la selección de los ingredientes hasta el proceso de cocción y la temperatura. Esta tecnología de canalización declarativa también ha sido donada por Databricks al proyecto de código abierto Apache Spark, y se espera que se generalice como estándar de la industria.
Y quien realmente procesa los datos en base a esta "declaración" es elApache SparkSpark destaca en el procesamiento distribuido de grandes cantidades de datos y puede realizar cálculos complejos a alta velocidad. En otras palabras, tras la interfaz intuitiva de Lakeflow Designer, este potente motor trabaja a toda velocidad para procesar eficientemente grandes cantidades de datos.
Además, los aspectos de gobernanza como la calidad de los datos, la seguridad y la gestión del acceso están respaldados porCatálogo de UnityEsto permite una gestión centralizada de quién puede acceder a qué datos y cómo se utilizan, lo que garantiza un uso seguro y bien controlado de los datos en toda la empresa. Es tranquilizador, como un bibliotecario riguroso que gestiona cuidadosamente el préstamo y la gestión de libros.
Lakeflow Designer es en realidad parte de un producto más grande llamado "Lakeflow", que también incluye otros módulos como:
- Conexión con LakeflowUna función para importar fácilmente datos de diversas fuentes. También dispone de una amplia gama de conectores de datos sin código.
- Canalizaciones declarativas de Lakeflow:Funcionalidad de creación y gestión de canalizaciones declarativas integrada con Lakeflow Designer.
- Empleos en Lakeflow:Una función para programar y supervisar la secuencia de datos que ha creado.
Estos módulos trabajan juntos para garantizar que todo el proceso, desde la importación de datos hasta la conversión, el procesamiento y la preparación para el uso, pueda llevarse a cabo sin problemas y de una sola vez.
¿Quién lo fabrica? ¿Qué tipo de empresa es Databricks?
Hablemos un momento de Databricks, la empresa que desarrolló esta herramienta revolucionaria. Databricks fue fundada por los creadores originales de Apache Spark y es una de las empresas líderes en el campo de los datos y la IA.
Ellos abogan por "Plataforma Lakehouse (una nueva arquitectura de gestión de datos que combina la flexibilidad y la gran capacidad de un lago de datos con la estructura y confiabilidad de un almacén de datos)" ha sido adoptado por numerosas empresas de todo el mundo y ha revolucionado la forma en que se utilizan los datos y se desarrolla la IA. La misión de Databricks es simplificar el complejo mundo de los datos y permitir que todos extraigan valor de ellos (democratizar los datos). Lakeflow Designer es un producto que realmente encarna esa misión.
El talentoso equipo de la empresa, que incluye a Bilal Aslam, Director Sénior de Gestión de Producto, lidera el desarrollo de estos innovadores productos. Databricks también goza de gran prestigio por su fiabilidad corporativa y capacidad técnica.
¿Qué puedes hacer con Lakeflow Designer? - Casos de uso específicos y posibilidades futuras -
Entonces, ¿qué puedes hacer exactamente con Lakeflow Designer? ¿Y cómo cambiará la forma en que usamos los datos y desarrollamos IA?
Una revolución para los analistas de datos y los usuarios empresariales
El mayor beneficio es que ahora los analistas de datos pueden realizar ellos mismos el trabajo de preparación de datos, algo que antes requería que lo hicieran los ingenieros de datos.
- Los datos necesarios para el análisis ahora están fácilmente disponibles,Mayor velocidad en la toma de decisionesし ま す.
- Porque no hay que esperar a que los ingenieros de datos trabajen,Plazos de ejecución significativamente acortados para proyectos de análisisれ ま す。
- Al tocar usted mismo los datos, obtendrá una comprensión más profunda de ellos.Mejores análisis y perspectivaspuede nacer.
Casos de uso específicos
Los expertos creen que Lakeflow Designer es particularmente eficaz en casos de uso menos complejos pero importantes, como:
- Seguimiento del margen de beneficio por región y producto:Organice los datos de ventas y visualice la rentabilidad casi en tiempo real.
- Informes de cumplimiento:Recopilar y procesar automáticamente los datos necesarios para informar a las autoridades reguladoras.
- Agregación de indicadores clave de rendimiento (KPI):Agregue datos de varios sistemas y calcule KPI para paneles de control.
- Monitoreo y archivado de retención de datosIdentifique y archive automáticamente datos obsoletos.
- Preparación de datos para la segmentación de clientes:Agrupar datos de clientes según condiciones específicas para fines de marketing (análisis de cohortes).
Por supuesto, también apoyamos el desarrollo personalizado, por lo que esperamos poder satisfacer necesidades aún más complejas en el futuro.
Los "héroes anónimos" del desarrollo de la IA
Al desarrollar un modelo de IA, especialmente un modelo de aprendizaje automático,Ingeniería de características (extracción y procesamiento de información característica de los datos originales para facilitar el aprendizaje del modelo de IA)El proceso de preparación de datos es fundamental. Lakeflow Designer optimiza la creación de pipelines para la ingeniería de características, lo que ayuda a los desarrolladores de IA a centrarse en la creación de sus propios modelos. Esto acelerará el ciclo de desarrollo de IA y permitirá una introducción más rápida de la IA en las empresas.
Una mirada al futuro: Hacia el «Canva de ETL»
Michael Ni, analista principal de la consultora Constellation Research, calificó a Lakeflow Designer como "unCanva de ETL (una popular herramienta de diseño gráfico que permite a cualquier persona crear fácilmente diseños de aspecto profesional)Esto sugiere que Lakeflow Designer tiene el potencial de hacer que el desarrollo de canales de datos, que antes requería conocimientos especializados, sea accesible e intuitivo para cualquier persona, tal como lo ha hecho Canva en el mundo del diseño. La democratización de la ingeniería de datos seguirá avanzando.
¿Qué la diferencia de otras herramientas? Comparación con la competencia.
Existen muchas herramientas diferentes en el mundo del procesamiento de datos. ¿Qué características ofrece Lakeflow Designer en comparación con ellas? En particular, se suele comparar con "Openflow" de Snowflake, otra importante empresa de nube de datos.
Diferencias en filosofía con Snowflake Openflow
Según los analistas, Lakeflow de Databricks y Openflow de Snowflake tienen diferentes enfoques y filosofías hacia la ingeniería de datos.
- Databricks Lakeflow (incluido el diseñador):Las funciones de ingeniería de datos están integradas en una plataforma de orquestación abierta centrada en Apache Spark.Flexibilidad y aperturaSe puede decir que esta filosofía enfatiza la importancia de integrar tecnologías existentes como Delta Live Tables, Databricks Workflows y la tecnología de Arcion (adquirida en 2023) en Lakeflow Connect. También se caracteriza por su alto nivel de madurez funcional, ya que tecnologías existentes como Delta Live Tables, Databricks Workflows y la tecnología de Arcion (adquirida en XNUMX) se han desarrollado e integrado.
- Copo de nieve Openflow:Proporciona control de flujo de trabajo declarativo que aprovecha las profundas capacidades nativas de la plataforma Snowflake.Integrado y sencilloSe considera una oferta relativamente nueva.
Michael Ni describe la diferencia como "un lado prefiere la flexibilidad y la apertura, el otro lado prefiere la integración y la simplicidad".
Las fortalezas únicas de Lakeflow Designer
Los puntos fuertes de Lakeflow Designer incluyen:
- El potente ecosistema de Databricks (Spark, Delta Lake, Unity Catalog, etc.)Colaboración estrecha.
- El asistente de IA no solo genera código.Comprender el contexto de los datosAyuda con la construcción de tuberías.
- Ofrecemos un entorno sin código para analistas de datos y un entorno de desarrollo con código profesional para ingenieros de datos (descrito a continuación).Facilitar la colaboración entre usuarios de diferentes niveles de habilidad.Diseñado para.
Cosas que debes saber antes de instalar: Precauciones y consideraciones
Lakeflow Designer parece una herramienta de ensueño, pero hay algunas cosas a tener en cuenta al considerar su uso.
- No es una panaceaComo señala Matt Aslett, director de investigación de software en ISG, la integración de datos altamente complejos, el procesamiento de conversión, la integración de sistemas especiales, etc., seguirán requiriendo la experiencia avanzada de los ingenieros de datos. Lakeflow Designer puede considerarse una herramienta que facilita la colaboración entre analistas e ingenieros.
- Comprender los datos en sí es esencialLas herramientas sin código reducen el obstáculo técnico, pero sigue siendo importante tener una comprensión fundamental de con qué datos estás trabajando, qué significan para tu negocio y qué resultados quieres lograr.
- Colaboración dentro de la organizaciónAl introducir una nueva herramienta, es importante establecer reglas dentro de la organización, como quién la usará, cómo y cuál será el alcance de la responsabilidad. Lakeflow Designer está diseñado para promover la colaboración, pero es más eficaz si existe un esfuerzo organizacional para utilizarlo.
- Conciencia de que es una versión preliminarAl momento de escribir este artículo, Lakeflow Designer está disponible como versión preliminar. Esto significa que aún se están implementando mejoras y añadiendo funciones para el lanzamiento oficial. Si está considerando una implementación completa en toda la empresa, le recomendamos que revise detenidamente la funcionalidad, la estabilidad, el sistema de soporte, etc., de la versión oficial.
¿Qué opinan los expertos? ~Opiniones de los analistas~
¿Qué opinan los expertos de la industria sobre esta nueva herramienta? Aquí tienes algunas opiniones.
Analista principal, Constellation ResearchMichael Nile ha dado a Lakeflow Designer una reseña muy positiva.
Lakeflow Designer aborda un problema crítico de gestión de datos: los cuellos de botella en la ingeniería de datos están frenando el impulso de la IA. Lakeflow Designer abre las puertas de par en par al poner el poder de las herramientas sin código en manos de los analistas, a la vez que garantiza la seguridad empresarial.
También elogió su innovación y robustez, afirmando: «Es el Canva de la ETL. Permite el desarrollo instantáneo, visual y asistido por IA de canales de datos. Y, en segundo plano, ejecuta Spark SQL a escala de máquina, protegido por Unity Catalog».
Mientras tanto, el Director de Investigación de Software de ISG,Matt AslettTambién ofrece una perspectiva más realista.
Si bien se espera que las nuevas herramientas reduzcan la carga de los equipos de ingeniería de datos, el informe señaló que "para casos de uso con requisitos de integración o transformación más complejos que requieren experiencia adicional, los analistas de datos probablemente seguirán trabajando en colaboración con los equipos de ingeniería de datos".
Aslett también comentó sobre la madurez de Lakeflow, explicando que se basa en tecnologías existentes. "La función Connect se adquirió junto con Arcion en 2023. La función Declarative Pipelines es una evolución de DLT (Delta Live Tables), y Jobs es una evolución de Databricks Workflows", afirmó.
Teniendo en cuenta todas estas opiniones, parece que, si bien Lakeflow Designer tiene el potencial de cambiar drásticamente la forma en que se realiza la ingeniería de datos, no es una herramienta para todo uso y la colaboración con los expertos existentes sigue siendo importante.
Últimas actualizaciones y hoja de ruta futura
Databricks Lakeflow Designer es una nueva y emocionante tecnología que se acaba de anunciar en la reciente Data + AI Summit.
- Lakeflow Designer ya está disponible en versión preliminarActualmente, los usuarios pueden probar Lakeflow Designer como vista previa y se perfeccionará en función de sus comentarios.
- Lakeflow en su conjunto pasa a disponibilidad general (GA)Los módulos principales de Lakeflow, incluidos Lakeflow Designer, Lakeflow Connect, Lakeflow Declarative Pipelines y Lakeflow Jobs, estarán disponibles de forma general en los próximos días.
- También se anunció ProCode IDE para ingenieros de datosJunto con Lakeflow Designer, Databricks también anunció un nuevo entorno de desarrollo integrado (IDE) para ingenieros de datos, que permite a los ingenieros con experiencia desarrollar, depurar y gestionar de forma eficiente pipelines más complejos. Michael Ni analizó el lanzamiento simultáneo de esta herramienta sin código (Lakeflow Designer) y pro-código (nuevo IDE), afirmando: «Es una estrategia para abordar ambos extremos de la madurez del pipeline: low-code para una rápida transición y un IDE completo para ampliar y mantener el pipeline».
Estos movimientos demuestran el fuerte compromiso de Databricks para satisfacer todas las necesidades de ingeniería de datos.
Resumen: La clave para desbloquear el futuro de la utilización de datos
Ahora que hemos analizado más de cerca Databricks Lakeflow Designer, esta nueva herramienta reduce significativamente la barrera de entrada para la preparación de datos, una tarea tradicionalmente reservada para los expertos, y pone los datos en manos de más personas, incluidos analistas de datos y usuarios comerciales.
Elimine los cuellos de botella de la ingeniería de datos, acelere el desarrollo de la IA y fomente una cultura basada en datos en toda la empresa.Lakeflow Designer es una herramienta con un gran potencial. Podría ser la clave para promover la democratización del uso de datos y llevar a las empresas a una nueva etapa en la era de la IA.
Por supuesto, esta tecnología se acaba de anunciar, así que debemos estar atentos a su evolución. Sin embargo, el concepto y las capacidades técnicas de Databricks parecen muy prometedores. ¡No se lo pierdan para descubrir qué revolución traerá este "Canva para ETL" al mundo de los datos!
Preguntas frecuentes (FAQ)
- P1: ¿Qué es ETL? Parece complicado con tantos términos técnicos...
- A1: ETL es la abreviatura de "Extraer, Transformar, Cargar" y consiste en una serie de pasos para recopilar datos, depurarlos para su uso y almacenarlos. En la cocina, es como tomar ingredientes del campo (extraer), lavarlos y cortarlos (transformación) y servirlos en un plato (almacenamiento). Lakeflow Designer te ayuda a lograrlo sin necesidad de programar.
- P2: ¿"Sin código" realmente significa que no es necesario escribir programas?
- A2: Sí, no necesitas escribir un programa para operaciones básicas. Puedes crear un flujo de procesamiento de datos (pipeline) simplemente arrastrando y soltando piezas en la pantalla y dando instrucciones sencillas. Es como construir algo con bloques de Lego.
- P3: ¿Para quién es Lakeflow Designer? ¿Necesito ser científico de datos para usarlo?
- A3: No, Lakeflow Designer está dirigido a analistas de datos y usuarios empresariales que han tenido dificultades con la programación. Por supuesto, los científicos e ingenieros de datos también pueden usarlo para crear prototipos rápidamente y optimizar parte de su trabajo.
- P4: Con Lakeflow Designer, ¿ya no necesitamos ingenieros de datos?
- A4: No necesariamente. Lakeflow Designer puede automatizar y simplificar muchas tareas rutinarias de preparación de datos, pero el procesamiento de datos de alta complejidad, el diseño de todo el sistema, el ajuste avanzado, etc., aún requieren la experiencia de los ingenieros de datos. En cambio, los ingenieros de datos pueden centrarse en tareas más estratégicas y colaborar con mayor fluidez con los analistas.
- P5: ¿Qué beneficios aporta esto al desarrollo de la IA?
- A5: Para que los modelos de IA sean más inteligentes, se requiere una gran cantidad de datos limpios y fáciles de usar. Lakeflow Designer permite preparar datos para la IA de forma rápida y eficiente. Como resultado, se puede acelerar el ciclo de desarrollo de modelos de IA e implementar IA que genere valor comercial con mayor rapidez.
Enlaces relacionados
- Blog oficial de Databricks: Anuncio del diseñador de Lakeflow
- Página del producto Databricks Lakeflow
- Artículo de InfoWorld: Databricks aborda los cuellos de botella de la IA con Lakeflow Designer
- Comunicado de prensa de Databricks: Anunciamos Lakeflow Designer
Este artículo proporciona información sobre Databricks Lakeflow Designer y no recomienda el uso de ningún producto específico. Si está considerando implementarlo, investigue y considere la posibilidad de hacerlo bajo su propia responsabilidad.