¡La clave del éxito en proyectos de IA! Todo sobre la preparación de datos, explicado de forma sencilla para principiantes.
Hola, soy John, un bloguero veterano. Últimamente, probablemente hayan escuchado mucho las palabras "IA" y "aprendizaje automático". Seguro que a muchos les parecen difíciles. ¡Pero tranquilos! Estas tecnologías tienen el potencial de hacernos la vida más rica y cómoda. Pero para que la IA y el aprendizaje automático demuestren realmente su poder, se necesitan algunos "héroes anónimos" muy poco conocidos, pero importantes. Ese es el que les voy a presentar hoy."Preparación de datos"¡Este artículo seguramente te ayudará a dar tu primer paso en el mundo de la IA de una manera divertida!
Conceptos básicos: ¿Qué es la IA, el aprendizaje automático y la “preparación de datos”?
Primero, repasemos brevemente qué significa cada término.
- ¿Qué es la IA (Inteligencia Artificial)?
En pocas palabras, la IA es «tecnología que permite a las computadoras pensar y aprender como los humanos». Por ejemplo, los asistentes de voz de los teléfonos inteligentes y las funciones que identifican automáticamente a las personas en fotos utilizan tecnología de IA. - ¿Qué es el aprendizaje automático (ML)?
Un método para lograr la IA es una tecnología en la que las computadoras encuentran patrones a partir de grandes cantidades de datos y aprenden por sí mismas. Su característica única es que encuentra patrones a partir de los datos, en lugar de que los humanos les enseñen reglas una por una. El aprendizaje automático implica aprender de los datos con respuestas y etiquetas correctas.aprendizaje supervisadoExisten varias técnicas, entre ellas el "aprendizaje supervisado", que implica aprender múltiples capas de información a la vez, y el "aprendizaje no supervisado", que implica encontrar patrones en datos no etiquetados. - El papel de la preparación de datos (preprocesamiento de datos): en el corazón de cualquier proyecto de IA
Y ahora, el tema principal del artículo de hoy: la preparación de datos. Este es el proceso de preparar los datos para que la IA, especialmente los modelos de aprendizaje automático, puedan aprender eficazmente.Recopilar los datos originales, limpiarlos y organizarlos de forma que sean utilizablesSe refiere al conjunto. Si usamos la cocina como analogía, es como seleccionar ingredientes frescos, lavarlos, pelarlos y cortarlos en tamaños adecuados para preparar un plato delicioso. Sin una preparación adecuada, por muy hábil que sea un chef (algoritmo de IA de alto rendimiento), no podrá preparar un plato delicioso (predicciones precisas de IA). La preparación de datos es el elemento clave que determina el éxito de un proyecto de IA.
Los resultados de búsqueda de Apify también enfatizan la importancia de "el preprocesamiento de datos mejora la calidad de los datos" y "la recopilación, limpieza y estructuración de datos".
El valor de los datos: calidad y cantidad en proyectos de IA
La IA, especialmente el aprendizaje automático, se nutre de datos. Sin embargo, la cantidad no basta. La calidad es igual de importante, o incluso más.
- Por qué son esenciales los datos de calidad
Hay un dicho que dice: "Si entra basura, sale basura". Esta es también una regla de oro en el mundo de la IA. Si se entrena a una IA con datos inexactos, sesgados o antiguos, esta podría aprender patrones erróneos y volverse inútil o tomar decisiones equivocadas. Por ejemplo, si se entrena una IA con datos de clientes de una sola región, podría hacer sugerencias irrelevantes a clientes de otras regiones.Mejorar la calidad de los datos mediante su preparaciónEste es el primer paso para garantizar la precisión y confiabilidad de la IA. - ¿Qué pasa si no hay suficientes datos?
Si bien es importante contar con datos de alta calidad, también se requiere cierta cantidad de datos. Esto se debe a que la IA necesita aprender de diversos casos para encontrar patrones en los datos. Si la cantidad de datos es demasiado pequeña, la IA no podrá aprender lo suficiente y no podrá responder a situaciones desconocidas. Sin embargo, en lugar de recopilar grandes cantidades de datos a ciegas, es importante recopilar datos apropiados y diversos para el problema que se desea resolver.
Al igual que el petróleo, los buenos datos son un recurso moderno precioso, y la preparación de datos es la refinería que convierte ese petróleo en energía valiosa.
Mecanismo técnico: el camino hacia el aprendizaje de la IA y los pasos para la preparación de datos
Ahora, echemos un vistazo al proceso de "aprendizaje" que hace que la IA sea más inteligente y qué hace específicamente la preparación de datos en ese proceso.
¿Cómo aprende la IA?
Un modelo de aprendizaje automático analiza una gran cantidad de datos de entrada y los datos "correctos" correspondientes (en el caso del aprendizaje supervisado) e intenta encontrar la relación entre ellos mediante una fórmula matemática (algoritmo). Incluso si comete muchos errores al principio, al repetir el aprendizaje muchas veces y corregirlos, gradualmente podrá obtener la respuesta correcta. La función de la preparación de datos es maximizar la eficiencia y la precisión de este "aprendizaje".
Pasos específicos para la preparación de datos
La preparación de datos consta de una serie de pequeños pasos. Veamos los principales:
- Recopilación de datos
Recopila datos relacionados con el problema en el que quieres entrenar la IA. Recopila datos de diversas fuentes, como bases de datos internas, conjuntos de datos públicos e información de sensores. En esta etapa, es importante aclarar qué datos necesitas y dónde recopilarlos. - Limpieza de datos
Los datos recopilados suelen ser inutilizables tal como están. También se denominan "datos sucios" y pueden contener valores faltantes, valores anormales, errores de entrada, datos duplicados, etc. Estos pueden corregirse o procesarse adecuadamente para aumentar la fiabilidad de los datos. Por ejemplo, si el campo de edad de un cuestionario indica "200 años", es claramente un error. - Transformación/estructuración de datos
Los datos se formatean o transforman para facilitar su comprensión por parte de los modelos de IA. Por ejemplo, las respuestas de formato libre en una encuesta (como "muy satisfecho" o "algo insatisfecho") se pueden convertir en números (como 5 o 2 puntos) (esto se denomina codificación de datos categóricos), o el rango de números se puede uniformizar (normalizar o estandarizar). Esto facilita que la IA aprenda las relaciones entre los datos. - Ingeniería de características
Este es un paso particularmente creativo e importante en la preparación de datos. Implica crear nueva información (características) a partir de los datos originales que ayudará a mejorar la precisión de las predicciones de la IA. Por ejemplo, crear nuevas características como el "importe promedio de compra" y el "número de días transcurridos desde la última compra" a partir del historial de compras del cliente permitirá a la IA realizar análisis más avanzados. - División de datos
Los datos preparados se dividen en datos para el aprendizaje del modelo de IA (datos de entrenamiento), datos para evaluar el rendimiento durante el aprendizaje (datos de validación) y datos para evaluar el rendimiento del modelo final (datos de prueba). Esto nos permite evaluar objetivamente el correcto funcionamiento de la IA incluso con datos desconocidos.
Solo después de seguir estos pasos, los datos se vuelven "comestibles" para la IA. Lleva tiempo, pero no es exagerado afirmar que esta cuidadosa preparación es lo que determina el éxito o el fracaso de un proyecto de IA.
Héroes tras bastidores: Las personas y las herramientas detrás de la preparación de datos
La preparación de datos es muy importante, pero ¿quién la realiza y qué herramientas utiliza?
- ¿Qué expertos intervienen?
La preparación de datos involucra a personas con una variedad de conocimientos.- Científico de datos:Utilizamos nuestro conocimiento de estadística y aprendizaje automático para analizar y diseñar qué tipo de datos se necesitan y cómo deben procesarse para mejorar el rendimiento de la IA.
- Ingeniero de datos:Desarrollamos y operamos sistemas (canalizaciones de datos) para recopilar, almacenar y procesar eficientemente grandes cantidades de datos. Somos los verdaderos artesanos que sentamos las bases para la preparación de datos.
- Otros expertos en la materia (expertos en el dominio) también trabajan juntos para dar sentido a los datos y tomar las medidas apropiadas.
- Herramientas y bibliotecas útiles
Afortunadamente, hay muchas herramientas potentes disponibles para ayudar con la preparación de datos.- Lenguaje de programación:Python es extremadamente popular en el mundo de la ciencia de datos y tiene una gran cantidad de bibliotecas que son útiles para la manipulación y el análisis de datos.
- Biblioteca:
- Pandas:La biblioteca ideal para trabajar con datos tabulares en Python. Ideal para cargar, limpiar y transformar datos.
- NumPy:Una biblioteca para realizar cálculos numéricos de alta velocidad.
- Scikit-learn:Esta es una biblioteca integral para el aprendizaje automático y también tiene amplias funciones de preprocesamiento de datos.
- Plataforma de procesamiento de datos:Las plataformas basadas en la nube como Databricks proporcionan un entorno eficiente para preparar grandes cantidades de datos y crear modelos de aprendizaje automático (como puede ver en los resultados de Apify, "preparación de datos para el aprendizaje automático usando Databricks").
- También se utilizan otros programas especializados como herramientas ETL (Extraer, Transformar, Cargar: el proceso de extracción, transformación y almacenamiento de datos) y herramientas de gestión de calidad de datos.
Estos expertos y herramientas trabajan juntos para respaldar el complejo proceso de preparación de datos.
Casos de uso de la preparación de datos y perspectivas futuras
La preparación de datos es esencial en cualquier campo donde se utilice IA.
Preparación de datos en diversos campos
- atención médica:Organizamos y analizamos historias clínicas de pacientes e imágenes médicas (radiografías, resonancias magnéticas, etc.) para facilitar la detección temprana de enfermedades y el desarrollo de tratamientos. En el caso de los datos de imagen, la eliminación de ruido y el ajuste del contraste también son partes importantes de la preparación de datos.
- finanzas:Analizamos el historial comercial del cliente y los datos del mercado y los utilizamos para la detección de fraudes, la evaluación de préstamos y propuestas de productos financieros personalizados.
- fabricación:Recopilamos y analizamos datos de sensores en fábricas para predecir fallos de las máquinas y optimizar los procesos de producción (fábricas inteligentes).
- Comercio minorista/comercio electrónico:Analizamos los datos de compra y el historial de navegación de los clientes para mostrar productos recomendados (recomendaciones), pronosticar la demanda y optimizar la gestión del inventario.
- Conducción autónoma:Se utiliza para procesar grandes cantidades de datos de cámaras, LiDAR y otros sensores para reconocer el entorno circundante, lo que requiere una rápida preparación de datos en tiempo real.
El futuro de la tecnología de preparación de datos
La preparación de datos es una tarea que requiere mucho tiempo, pero a medida que se reconoce su importancia, la tecnología va evolucionando.
- Mayor automatización:Hay una cantidad cada vez mayor de herramientas disponibles, incluida la tecnología "AutoML (aprendizaje automático automatizado)", que permite a la IA realizar automáticamente parte de la preparación de datos, así como herramientas para ayudar con la limpieza de datos y la ingeniería de características.
- Mayor enfoque en la calidad de los datos:Se está dando cada vez más importancia a la creación de mecanismos para supervisar y mantener de forma continua la calidad de los datos (gobernanza de datos).
- Aprovechamiento de datos sintéticos:Para proteger la privacidad y compensar la escasez de datos, también se están realizando investigaciones para generar "datos sintéticos" que tengan propiedades similares a los datos reales y utilizarlos para el entrenamiento de IA.
En el futuro, se espera que técnicas de preparación de datos más eficientes y avanzadas aceleren aún más la velocidad del desarrollo de la IA.
Buena preparación de datos versus mala preparación de datos: ¿Cómo cambia sus resultados?
¿Cuánta diferencia habrá en el rendimiento de la IA si la preparación de datos se hace correctamente o si se hace mal?
- La preparación de datos de calidad conduce a:
- Mejorar la precisión del modelo de IA:Esto aumenta la precisión de las predicciones y le brinda resultados más confiables.
- Tiempo de desarrollo reducido:Esto reduce la necesidad de tener que volver a hacer trabajos y permite que el desarrollo se realice de manera más eficiente.
- Reducir el sesgo:Al corregir conscientemente el sesgo en los datos, podemos lograr una IA más justa.
- Descubra nuevos conocimientos:Mediante un análisis cuidadoso de los datos, a veces es posible descubrir oportunidades de negocio y problemas que quizás no haya notado antes.
- Riesgos de no preparar tus datos:
- Bajo rendimiento de los modelos de IA:Esto podría generar predicciones incorrectas o una IA inútil.
- Toma de decisiones incorrecta:Un análisis de IA inexacto podría conducir a decisiones erróneas que podrían perjudicar su negocio.
- Fracaso del proyecto:Esto puede fácilmente llevar a que «se introdujo la IA, pero fue ineficaz», lo que supone una pérdida de tiempo y dinero. De hecho, muchos proyectos de IA fracasan debido a problemas con los datos.
- Cuestiones éticas:La IA entrenada con datos sesgados puede conducir a juicios injustos contra ciertos grupos, lo que puede causar problemas sociales.
Como tal, la preparación de datos es un proceso importante que afecta no solo el rendimiento de la IA, sino también el éxito o el fracaso de todo el proyecto e incluso su impacto en la sociedad.
Advertencias y riesgos: Dificultades en la preparación de datos
La preparación de datos es muy importante, pero también existen algunas advertencias y riesgos potenciales.
- Problemas de sesgo de datos:
Si los datos recopilados reflejan solo ciertos aspectos del mundo real o están sesgados hacia ciertos grupos, la IA también aprenderá de dicho sesgo. Por ejemplo, una IA entrenada con datos de reclutamiento anteriores podría, inconscientemente, tratar desfavorablemente a ciertos géneros o grupos de edad. Es necesario ser consciente de estos sesgos durante la etapa de preparación de los datos y esforzarse por corregirlos en la medida de lo posible. - Privacidad y seguridad:
En particular, al gestionar datos que incluyen información personal, es fundamental cumplir con las leyes y normativas de privacidad (como el RGPD y la Ley de Protección de Datos Personales de Japón). También son esenciales las medidas de seguridad, como la anonimización o seudonimización de datos y una gestión rigurosa del acceso. - Reconozca que los "datos perfectos" no existen:
Por mucho que se intente, es difícil preparar datos perfectos, completamente libres de ruido y sesgos. La preparación de datos no es algo que se hace una vez y luego se hace, sino que es importante considerarla como un proceso (parte de MLOps) en el que se revisa y mejora continuamente la calidad de los datos mientras se opera el modelo de IA. - Tiempo y costo:
La preparación de datos de calidad requiere tiempo, experiencia y dinero, por lo que comprender la importancia de la preparación de datos en las primeras etapas de la planificación del proyecto y asignar recursos suficientes es clave para el éxito.
Comprender estos riesgos y abordarlos adecuadamente permitirá un uso más seguro y eficaz de la IA.
Lo que dicen los expertos: ¿Por qué fracasan tantos proyectos de IA?
Como se mencionó al principio, lamentablemente no todos los proyectos de IA tienen éxito. Una de las principales razones es, por supuesto, la problemática de los datos. El artículo de InfoWorld al que me referí (de Matt Asay) también lo señaló con claridad.
Según el artículo, la razón por la que muchos proyectos de IA corporativa fracasan antes de llegar a un uso práctico es que "los objetivos no están claros,Disponibilidad insuficiente de datos, y una falta de experiencia interna.Basura que entra, basura que saleNo importa cuán avanzado sea un algoritmo de IA, si los datos de entrenamiento están sesgados, incompletos o desactualizados, el resultado del modelo de IA no será confiable.
Según una encuesta de Gartner:Alrededor del 85% de los proyectos de IA fracasan debido a la mala calidad de los datos o la falta de datos relevantes.Es una cifra impactante, ¿verdad? Las empresas a menudo descubren que sus datos están aislados, plagados de errores o simplemente no son relevantes para el problema que intentan resolver. Los modelos entrenados con conjuntos de datos idealizados o irrelevantes son ineficaces ante datos reales.
En cambio, las iniciativas exitosas de IA/ML priorizan los datos. Esto implica invertir en canales de ingeniería de datos, gobernanza de datos y experiencia en el sector antes de invertir en algoritmos avanzados. Como lo expresó un experto, la ingeniería de datos es el "héroe anónimo" de la IA, y sin datos limpios y bien seleccionados, "incluso los algoritmos de IA más avanzados se vuelven ineficaces".
Para los desarrolladores, esto significa centrarse en la preparación de datos. Es importante preguntarse: "¿Tengo los datos que mi modelo necesita? ¿Realmente los necesito?". Si intenta predecir la pérdida de clientes, ¿dispone de datos completos y actualizados sobre sus interacciones? De lo contrario, todo ese ajuste de la red neuronal será en vano. No permita que su entusiasmo por la IA le impida ver la importancia del arduo trabajo de ETL (extracción, transformación y carga), la limpieza de datos y la ingeniería de características.
Como puede ver, los expertos son unánimes en su énfasis en la preparación de datos, y es esta tarea "mundana" la que debe tomarse en serio para que los proyectos de IA tengan éxito.
Tendencias actuales y futuras: El mundo de la preparación de datos está evolucionando
A medida que se reconoce cada vez más la importancia de la preparación de datos, surgen nuevas técnicas y formas de pensar en este campo.
- El auge de las herramientas de automatización y AutoML:
Las herramientas que automatizan partes de la limpieza de datos y la ingeniería de características, así como la tecnología AutoML (aprendizaje automático automatizado) que automatiza la selección de modelos, están evolucionando. Esto permite a los científicos de datos centrarse en tareas más creativas. Sin embargo, no es posible automatizarlo por completo, y el criterio humano y el conocimiento del dominio siguen siendo esenciales. - La importancia de MLOps y los pipelines de datos:
MLOps combina aprendizaje automático (ML) y operaciones, y constituye un concepto y mecanismo para optimizar y mejorar continuamente todo el proceso, desde el desarrollo del modelo de IA hasta su operación, monitorización y reaprendizaje. En este proceso, se concede gran importancia a la creación y operación de un flujo de datos para garantizar un suministro estable de datos y un control de calidad. La preparación de datos es un elemento fundamental en las primeras etapas de este ciclo de MLOps. - IA centrada en datos:
Hasta ahora, la atención se ha centrado en mejorar los algoritmos de los modelos de IA, pero recientemente ha cobrado relevancia un enfoque denominado "IA centrada en datos", que afirma: "El modelo es fijo y el rendimiento de la IA se mejora mediante una mejora exhaustiva de la calidad de los datos". Esta forma de pensar enfatiza aún más la importancia de la preparación de los datos. - IA explicable (XAI) y datos:
También se están logrando avances en la tecnología de "IA explicable", que permite a los humanos comprender por qué la IA tomó una decisión determinada. Para lograr esta IA, se requiere una preparación de datos altamente transparente, de modo que podamos rastrear y comprender qué datos se utilizaron para el aprendizaje y qué características influyeron en la decisión.
Estas tendencias demuestran que la preparación de datos ya no es solo una tarea de preprocesamiento, sino un elemento estratégico clave que debe abordarse durante todo el ciclo de vida de la IA.
Preguntas frecuentes sobre IA/ML y preparación de datos
¡Aquí respondemos algunas preguntas comunes que los principiantes tienen sobre IA, aprendizaje automático y preparación de datos!
- P1: ¿Cuál es la diferencia entre IA, aprendizaje automático y aprendizaje profundo?
- A1: La IA (inteligencia artificial) es el concepto más amplio y se refiere a todas las tecnologías que implementan inteligencia similar a la humana en computadoras. El aprendizaje automático es un método para implementar la IA y un enfoque para aprender de los datos. El aprendizaje profundo es un método más específico de aprendizaje automático y aprende mediante redes neuronales multicapa que imitan los circuitos neuronales del cerebro humano. En otras palabras, existe una relación inclusiva entre IA, aprendizaje automático y aprendizaje profundo.
- Q2: ¿Cuánto tiempo se tarda en preparar los datos?
- A2: Depende de la escala del proyecto, el estado de los datos y la precisión deseada de la IA, pero generalmente toma alrededor de60 80% ~%Se estima que unas 100.000 personas dedican su tiempo a la recopilación y preparación de datos. Es una tarea que requiere mucho tiempo y esfuerzo, pero eso demuestra su importancia.
- P3: ¿Pueden las personas nuevas en programación aprender preparación de datos?
- A3: ¡Sí, puedes! Claro que es ventajoso tener habilidades de programación (especialmente Python) y conocimientos de estadística, pero recientemente ha aumentado la cantidad de materiales de aprendizaje para principiantes y herramientas que permiten manipular datos con relativa facilidad. Es recomendable empezar aprendiendo los fundamentos del manejo de datos poco a poco. Lo importante es interesarse por los datos y preguntarse: "¿Por qué son así?".
- P4: ¿Qué son exactamente los “datos sucios”?
- A4: "Datos Sucios" se refiere a datos inapropiados para el entrenamiento de IA. Algunos ejemplos incluyen:
- Valores faltantes:Falta un valor que debe ingresarse (por ejemplo, la edad se deja en blanco en una encuesta)
- Valores atípicos:Un valor inusual que es significativamente diferente de otros valores (por ejemplo, el precio de un producto es negativo)
- Variación en la ortografía:El mismo significado se escribe de forma diferente (por ejemplo, "A Co., Ltd." y "(Co., Ltd.) A")
- Datos duplicados:Los mismos datos existen varias veces
- Datos contradictorios:Datos lógicamente imposibles (por ejemplo, la fecha de cancelación es anterior a la fecha de registro de la membresía)
etc. Limpiarlos es un paso importante en la preparación de datos.
- Q5: ¿Qué es lo más importante en la preparación de datos?
- A5: Es difícil elegir solo uno, pero "Aclare el problema que desea resolver y prepare datos apropiados y de alta calidad para ello."Es lo más importante. No tiene sentido recopilar datos al azar. Es fundamental tener un propósito, seleccionar cuidadosamente los datos necesarios y realizar los preparativos con cuidado. Y pensar siempre en "¿por qué es necesario este procesamiento de datos?" conduce a una mejor preparación de los datos.
Resumen: La clave del éxito de la IA es la preparación diligente de los datos.
En esta ocasión, explicamos en detalle la preparación de datos que sustenta la IA y el aprendizaje automático: su importancia, pasos específicos, tecnologías relacionadas, puntos a considerar, etc. Aunque no es un tema llamativo, la preparación de datos es el "héroe anónimo" que sienta las bases de un proyecto de IA y determina en gran medida su éxito o fracaso.
Así como es necesario seleccionar buenos ingredientes y prepararlos con esmero para crear un plato delicioso, es esencial procesar con precisión datos de alta calidad para desarrollar una IA inteligente. El primer paso para utilizar la IA es recordar el dicho "Si entra basura, sale basura" y afrontar los datos con sinceridad.
Espero que este artículo te ayude a profundizar tu comprensión de la IA y la preparación de datos, y te entusiasme con sus posibilidades. El mundo de la IA es complejo, por lo que es importante seguir aprendiendo, pero esa exploración sin duda satisfará tu curiosidad intelectual.
Enlace relacionado
- Preprocesamiento de datos en aprendizaje automático: pasos y mejores prácticas – Se explican en detalle los pasos de preprocesamiento de datos y las mejores prácticas.
- ¿Qué es la preparación de datos para el aprendizaje automático? – Un resumen de qué es la preparación de datos y por qué es importante.
- Tutorial de aprendizaje automático - Un tutorial para aprender los conceptos básicos del aprendizaje automático.
Aviso legal: Este artículo ofrece información general sobre la tecnología de IA y no recomienda ningún producto, servicio ni inversión en particular. Al utilizar o aprender sobre tecnología, consulte la información más reciente bajo su propia discreción y responsabilidad, y consulte con expertos si es necesario.