miércoles, 27 de abril de 2011

Web Data Mining


Web Data Mining

Internet es uno de los medios más populares para transmitir información. Además es uno de los más fáciles y baratos para la comunicación entre grandes distancias. El crecimiento del internet es muy acelerado y es una de las fuentes de información más grande con la que contamos en la actualidad.

En esta red existe una gran cantidad de información conectada entre sí conocida como páginas web. Las cuales están desarrolladas por muchas personas alrededor del mundo. Esto ha cambiado la forma en cómo nosotros buscamos información y como la miramos ahora. Antes de tener esta red como la conocemos en la actualidad para poder encontrar información se debía de buscar con amigos o expertos en los diferentes temas. Pero ahora con la internet encontrar algún tipo de información es simplemente algunos clics y tendrás una gran cantidad de información que puedes utilizar para investigaciones o otros tipos de usos y todo desde la comodidad de la casa.
La búsqueda de información no es lo único que podemos hacer con el internet si no que podemos compartir nuestro conocimiento también con el mundo. Podemos publicar información por medio de los diversos medios que nos ofrecen.

Por otro lado el internet se convirtió en un gran canal para hacer negocios. Muchos de los negocios actuales tienen una página web donde pueden anunciar sus productos, vender servicios y productos. Una de las grandes ventajas es que podemos vender casi cualquier cosa por medio de la web sin tener que ir a buscarlo físicamente.
Con nuestro actual entorno y el avance del internet tenemos mucha información, más de la que podemos procesar. Con esto nacen los buscadores que nos permiten encontrar de forma más simple la información que requerimos para nuestras diferentes tareas.

Data Mining

El rápido crecimiento del internet en los últimos años hace que este sea el lugar donde se encuentre más información en todo el mundo. Este medio tiene muchas características especiales lo cual hace que la minería de datos sea muy beneficiosa para generar conocimiento y además muy retador a la hora de hacer minería de datos.

Algunas de las características de la web para minería de datos son:

1. La cantidad de información en la web es muy grande y continua creciendo. La información es muy diversa. Y esta puede ser encontrada en casi cualquier página web.

2. Todo tipo de tipos de información existe en la web. Estructuras de tablas, semi estructuras en páginas web, sin estructura simplemente texto, etc.

3. La información es muy heterogénea. Diversos autores de las páginas web, múltiples páginas web pueden presentar el mismo contenido pero con diferentes palabras y formas de expresarlo. Muchos formatos y formas diversas de mostrar la información.

4. Cierta cantidad de la información cuenta con links y está unida por medio de estas uniones. Estos pueden estar relacionados entre páginas y paginas de muchos diferentes sitios web.

5. En otros casos mucha de la información de la web esta con ruidos o sucia, esto porque mucho de los pedazos de la información vienen de diferentes sitios web. Además de anuncios links de otras páginas web, derechos de autor, políticas de privacidad, etc. Para alguna aplicación en particular solo un porción de esta información podría ser útil todo lo demás podría ser información no necesaria que provoca que esto sea información sucia. Y por otro lado la información de internet no cuenta con un control de cómo se crea esta o quiénes son los que la publican.

6. El internet se está centrando mucho a los servicios. Muchas de las paginas web permiten que los usuarios realicen tareas útiles en su sitio web, como venta de productos, pagar facturas, y llenado de formularios web.

7. La información con la que contamos en internet cambia rápidamente.

8. Internet es una sociedad virtual. Aquí no contamos solo con información, datos y servicios sino que también las personas pueden interactuar entre ellos. Las personas tienen muchas herramientas para realizar muchas tareas como la comunicación entre grandes distancias.
Las páginas web cuentan con una estructura básica que se llama DOM (Document Object Model). La estructura de la web es de un árbol donde cada uno de las etiquetas HTML son nodos del árbol del modelo. La información de las páginas web puede ser extraída de manera más fácil usando esta estructura de árbol.

Desafortunadamente, las páginas web ofrecen un alto nivel de flexibilidad y muchos no siguen los estándares. Por lo que es difícil seguir los patrones de las etiquetas del HTML haciendo que la tarea de análisis de información nose convierta en una actividad simple.

Minería de Web

La minería de datos en la web puede categorizarse en 3 tipos:

• Web Structure mining: este tipo de minería busca información útil por medio de los hyperlinks, la cual representa la estructura de la web. Por ejemplo se podría encontrar comunidades de usuarios que comparten los mismos intereses.

• Web Content Mining: esta metodología busca información relevante dentro del contenido de las páginas web. Por ejemplo se pueden clasificar las páginas web dependiendo de los temas. También, se pueden encontrar patrones.

• Web Usager Mining: esta metodología nos permite encontrar patrones de los logs de las páginas web, el cual es alimentado con cada uno de los clics que dan los usuarios de las páginas web.

La minería de datos está creciendo y está tomando más y más fuerza con la creciente cantidad de información que se está acumulando alrededor del mundo.

Estas grandes cantidades de información nos permiten generar muchas formas de patrones y búsquedas de información.

La complejidad de las páginas web y la flexibilidad hacen que la minería de datos sea un trabajo muy duro y la abstracción de información sea una tarea muy retadora. Por otro lado el cambio rápido de la información existente hace que los patrones puedan cambiar mucho y rápidamente.
Este es un campo que cuanta con muchas oportunidades para poder realizar muchos estudios y análisis. Los motores de búsqueda y los nuevos servicios que se están brindando con el internet hacen que se puedan hacer nuevos estudios de la web.

Bibliografía

Data mining concepts and techniques. Jiawei Han and Micheline Kamber.
Springer Web Data mining. Bing Liu

Etiquetas:

0 comentarios:

Publicar un comentario

Suscribirse a Enviar comentarios [Atom]

<< Inicio