Leslie Yajaira: 2009

domingo, 12 de julio de 2009

Unidad 3 Bodegas de Datos Datawarehouse

Unidad 3 Bases de datos para el soporte en la toma de decisiones
3.1 Bodegas de Datos Datawarehouse
3.1.1 [Definicion Objetivo Bodegas de Datos
3.1.2 Funcionamiento Datawarehouse
3.1.3 Consideraciones Diseño Datawarehouse
3.1.4 Herramientas para extraer transformar y cargar fuentes de datos
3.2 Procesamiento y análisis en linea Olap
3.2.1 Definiciones y conceptos Olap
3.2.2 Requerimientos Funcionales Sistemas Olap
3.2.3 Operadores para manejo de Cubos de Datos del estandar Sql3
3.2.4 Diseño Consultas Bases Datos Multidimensionales
3.2.5 Utilizacion Herramientas para Olap
3.3 Mercados de Datos Data Mart
3.3.1 Definiciones Conceptos Mercados Datos
3.3.2 Fases Construcción Mercados Datos
3.3.2.1 Analisis Mercados Datos
3.3.2.2 Construcción Mercados Datos
3.3.2.3 Post Producción Mercados Datos
3.3.3 Tecnologias Mercados Datos
3.3.3.1 Herramientas FrontEnd
3.3.3.2 Herramientas de bases de datos
3.3.4 Proceso Diseño Consultas Mercados Datos
3.4 Mineria de Datos Data mining
3.4.1 Definiciones Conceptos Mineria de Datos
3.4.2 Aplicaciones Minería de Datos
3.4.3 Diseño de Mineros de Datos
3.4.4 Obtencion Información a traves de patrones de busqueda
3.4.5 Tecnicas Herramientas de Mineria de Datos
3.4.6 Tendencias en Mineria de Datos

Bodegas De Datos Datawarehouse
Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.
Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.
RIESGOS.
- Desactualización de esquemas a nuevas necesidades del negocio.
- Acceso no restringido a objetos de Data Warehouese.
- Respaldo de los datos almacenados
SISTEMA OPERATIVO
La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las áreas de almacenamiento y procesamiento están en gran medida dependientes de esta plataforma.
RIESGOS del Sistema Operativo.
- El Sistema operativo no apoya las políticas de acceso establecidas desde la administración de la bodega de datos.
- Los recursos requeridos par los procesos de actualización sean mal atendidos por el sistema operativo.
- El sistema operativo permite que programas o usuarios ejecuten y utilicen recursos protegidos desde la bodega de datos.
- El sistema operativo no otorga los recursos necesarios para la realización de procesos de alto costo computacional.
RED
Es la infraestructura de comunicación que permite que los diferentes componentes intercambien información. La cantidad de datos contenidos en Data Warehouse incrementa su importancia.
RIESGOS de La Red.
- Acceso al sistema desde elementos externos sin autorización (aplicaciones, personas, etc.)
- La red se convierta en un cuello de botella para lo operación del sistema.
- La inexistencia de elementos que respalden un componente que falle
OLAP: Las siglas OLAP significan en inglés Online Analytical Processing, una categoría de herramientas de software que provee análisis de datos almacenados en una base de datos multidimensional. Las herramientas OLAP permiten a los usuarios analizar diferentes dimensiones de datos.
SQL: Es la abreviación de Structured Query Lenguaje. Es un lenguaje estandarizado de consultas para pedir información desde una base de datos.
‘’‘REQUERIMIENTOS PARA LA CONSTRUCCIÓN DE UNA BODEGA DE DATOS
HARDWARE’‘’
Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construcción de la bodega presenta redimensionamiento a medida que se avanza en la implementación. La capacidad inicial de almacenamiento estará determinada por los requerimientos de información histórica presentados por la empresa y por la perspectiva de crecimiento que se tenga.
HERRAMIENTAS DE SOFTWARE
Las herramientas se clasifican en cuatro categorías básicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes.
Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, Tera Data?, Sybase, etc, tienen una facilidad de Data Warehouse.
Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales.
Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, Show Case? Strategy etc.
Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos.

Definicion Objetivo Bodegas De Datos
Data warehouse o bodega de datos es una colección de información coorporativa derivada directamente de los sistemas operacionales (DB) y de algunos datos externos.
Su propósito es soportar la toma de decisiones en un negocio (no las operaciones del negocio).
Para construir una bodega de datos se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia la bodega de datos.
Ya construida la bodega de datos necesitamos de herramientas para manejar grandes volumenes de información.

Funcionamiento Datawarehouse
Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar,crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.
La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.

Consideraciones Diseño Datawarehouse
El diseño de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Tal y como se planteó anteriormente, esto conduce a una estructura en estrella en la que el centro es la tabla “fact” o “hecho” que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas “dimensión”, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio.
Entre los aspectos a tener en cuenta al afrontar el diseño de un DW hay que tener especial cuidado al:
• Identificar las tablas de hechos, ya que es posible tener más de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos.
• Identificar las tablas de dimensión (esto es, decidir cuáles son los parámetros por los que interesa realizar el estudio).
• Comprobar que ninguna de las tablas de hechos oculta tablas de dimensiones. Al heredar la estructura de las bases de datos operacionales, esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos que ya no interesan.
• Comprobar que ninguna de las tablas de dimensión oculta una tabla de hechos. Esto conduciría a la tabla a un crecimiento anormal muy por encima de los límites aceptables para este tipo de tablas (por otra parte, este síntoma ayuda a identificar el error cometido en el diseño).
Las tablas de dimensión no presentan una participación importante a efectos de alterar el rendimiento del sistema por cuanto, en general, el peor de los casos nos lleva a que nos encontremos con tablas de más que no se utilizan, pero que, dado el escaso crecimiento, no afectan al rendimiento. Por otra parte, las tablas de hechos sí son fundamentales y, como se ha planteado anteriormente, provienen, en general, de las tablas de las relaciones del modelo Entidad/Relación. A pesar de esto, sí es importante tener en cuenta que puede haber tablas que unas veces participen en el diseño del DW como tablas de dimensión y otras veces como tablas de hechos. Así es posible que en el ejemplo anterior, el primer diseño interesante sea el ya planteado, con la tabla de ventas como tabla de hechos, pero también es posible que interese un estudio pormenorizado de los clientes y su naturaleza de acuerdo con los productos, etc. …

Herramientas Para Extraer Transformar Y Cargar Fuentes De Datos
Componentes:
Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, …) y la carga del AD, realizando:
extracción de los datos.
filtrado de los datos: limpieza, consolidación, etc.
carga inicial del almacén: ordenación, agregaciones, etc.
refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos
Repositorio Propio de Datos: información relevante, metadatos.
Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).
Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, …

Procesamiento Y Analisis En Linea Olap
OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.
La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.
La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.

Definiciones Y Conceptos Olap
3,2,1 Definiciones Y Conceptos Olap
El procesamiento analítico en línea (OLAP) le permite obtener acceso a datos organizados y agregados de orígenes de datos empresariales, como por ejemplo almacenamientos de datos, en una estructura multidimensional denominada cubo. Microsoft SQL Server 2005 Analysis Services (SSAS) proporciona herramientas y características para OLAP que puede utilizar para diseñar, implementar y mantener cubos y otros objetos compatibles. Antes de empezar a integrar cubos y otras funciones OLAP en las soluciones de Business Intelligence, asegúrese de que conoce los conceptos y decisiones siguientes.
Un usuario que desee recuperar información directamente de un origen de datos, como una base de datos de ERP (Planeamiento de recursos de empresa), se enfrenta a varios retos importantes: Con frecuencia, resulta difícil comprender el contenido de estos orígenes de datos, ya que están diseñados desde la perspectiva de los sistemas y los programadores, en lugar de los usuarios finales. La información interesante para el usuario se distribuye generalmente en varios orígenes de datos heterogéneos. Aunque sólo se manejen distintas bases de datos relacionales, el usuario debe comprender los detalles de cada una, como el dialecto de SQL que se utiliza. Además, los orígenes de datos pueden ser de tipos muy distintos, ya que no sólo incluyen bases de datos relacionales, sino también archivos y servicios Web. Mientras que muchos orígenes de datos están concebidos para contener una gran cantidad de detalles de los niveles de transacción, con frecuencia las consultas que admiten la toma de decisiones corporativas precisan información agregada y de resumen. Al aumentar el volumen de datos, el tiempo necesario para recuperar los valores de resumen para un análisis de un usuario final interactivo puede ser prohibitivo. Por lo general, las reglas de negocios no están encapsuladas en los orígenes de datos. Los usuarios deben realizar su propia interpretación de los datos.
La función de un modelo UDM (Unified Dimensional Model) es aproximar los orígenes de datos al usuario. Un UDM se genera a partir de uno o varios orígenes de datos físicos. El usuario emite consultas en el UDM mediante diversas herramientas de cliente, como Microsoft Excel.
Existen ventajas para el usuario final aun cuando el modelo UDM sólo se genere como una fina capa sobre el origen de datos: un modelo de datos más sencillo y más fácil de comprender, el aislamiento de orígenes de datos de servidor heterogéneos y un rendimiento mejorado para las consultas de tipo de resumen. En algunos escenarios, un modelo UDM simple se puede generar automáticamente. Una mayor inversión en la generación del modelo UDM puede generar ventajas adicionales por la gran cantidad de metadatos que puede proporcionar el modelo.
El modelo UDM proporciona las siguientes ventajas: Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un análisis interactivo, incluso con grandes volúmenes de datos. Captura las reglas de negocio del modelo para proporcionar un análisis mejorado. Admite “cerrar el ciclo”, lo que permite que los usuarios actúen según los datos que ven.
Modelo básico del usuario final
Imagine un ejemplo en el que un usuario desee comparar las ventas con las cuotas de distintos períodos.
Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que también contiene otras tablas. Incluso después de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad única, como Product, se reparten en distintas tablas. Dado que la integridad referencial se aplica en la lógica de la aplicación, no se definen relaciones entre las tablas. Las cuotas de venta se almacenan en la base de datos de otra aplicación. Ninguna base de datos captura las reglas de negocio, como el hecho de que al comparar las cuotas con las ventas reales, debe utilizarse la fecha de envío del pedido, en lugar de las otras fechas para pedidos (fecha de pedido, fecha de entrega, fecha programada, etc.). Obtener acceso directo a los orígenes de datos
En primer lugar, imagine que el usuario obtuviese acceso directo a los orígenes de datos. En la siguiente ilustración se muestra un ejemplo de una consulta que se genera con una herramienta de ejemplo.
Hasta el momento, el usuario ha progresado considerablemente. Este progreso incluye: Buscar tablas de su interés entre una gran cantidad de tablas con nombres cifrados. Identificar las columnas que se deben utilizar para combinar las tablas. Seleccionar las columnas que contienen los detalles de interés, de muchas tablas con gran cantidad de detalles orientados al sistema. Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categorías de producto, sólo dos columnas con nombre son relevantes para el usuario.
A continuación, el usuario debe descubrir si se deben utilizar combinaciones “externas” o “internas” y cómo agrupar los detalles para obtener los agregados deseados.
Sin embargo, el usuario se enfrenta a tareas más difíciles. Por ejemplo, ¿cómo puede combinar datos procedentes de otro origen de datos? Aunque una de las bases de datos admitiese consultas distribuidas, la mayoría de los usuarios no podría generar la consulta necesaria y puede que las herramientas le sean de escasa utilidad para realizar esta tarea. El ejemplo de código muestra una forma de consultar datos externos. SELECT Quotas.Quota Amount?, Quotas.Employee Id?, … FROM OPENROWSET(‘SQLOLEDB’,’seattle1′; ‘Sales’;’My Pass?’,
‘SELECT * FROM Forecasts.dbo.Sales Quota?’ ) As Quotas
Cuando se utilizan otros orígenes de datos, como los servicios Web, el usuario se enfrenta a otro gran obstáculo para determinar cómo se realizan las llamadas remotas correctas y cómo se procesa el XML devuelto para combinarlo con los demás datos.
Por último, después de realizar este trabajo para una consulta, es necesario repetir gran parte del mismo para la siguiente consulta y todas las consultas correctas. Obtener acceso a los orígenes de datos mediante un UDM
Por contraste, en el siguiente diagrama se muestra un ejemplo de cómo vería la generación de una consulta un usuario que obtiene acceso a un modelo UDM simple generado sobre estos orígenes de datos.
La interfaz de diseño que se muestra en este ejemplo está disponible en las herramientas de desarrollo incluidas en Microsoft SQL Server 2005. Con todo, se podría usar cualquier interfaz compatible con el modelo UDM, incluidas herramientas cliente como Office Excel u Office Web Components (OWC), o una de las muchas herramientas de análisis y creación de informes.
La vista de árbol de la izquierda presenta el contenido del modelo UDM. En este ejemplo, observe los siguientes aspectos: Sólo se muestran los elementos relevantes y orientados al usuario. No se muestran las columnas del sistema, como los identificadores de fila o la fecha de última modificación. Se utilizan nombres descriptivos, en lugar de las convenciones de nomenclatura orientadas al programador que se utilizan en la base de datos subyacente.
El modelo UDM también agrupa los atributos de cada entidad comercial en “dimensiones” independientes, como Product o Employee. El cliente puede consultar Product Color, Subcategory y Category en este ejemplo sin necesidad de realizar explícitamente combinaciones entre las diversas tablas implicadas.
Las columnas que representan valores de transacciones, o medidas, se presentan a continuación “medidas”. Por ejemplo, los usuarios suelen estar interesados en agregar columnas como importe de ventas o cuota de venta. Este método de presentación de datos como “medidas” y “dimensiones” se denomina modelado dimensional.
En el lado derecho del diagrama se muestran los elementos incluidos en la consulta actual. En este caso, para solicitar el “importe de venta y cuota por categoría de producto”, el usuario define la consulta con sólo arrastrar los tres elementos relevantes desde la vista de árbol hasta el lado derecho de la interfaz de diseño. El usuario no tiene que especificar los detalles necesarios para obtener acceso a los dos orígenes de datos distintos ni realizar las combinaciones correctas entre las distintas tablas.
El modelo define el uso del formato predeterminado más sencillo: por ejemplo, el uso de símbolos de moneda. También pueden definirse formatos más complejos, incluido el formato condicional, como mostrar un valor en rojo si se encuentra por debajo de determinado umbral.
El mismo modelo admite diversas consultas. Por ejemplo, los resultados se pueden desglosar por empleado con sólo arrastrar un atributo de la dimensión Employee.
Ampliar el modelo básico
En el ejemplo anterior se demuestra cómo incluso un modelo UDM simple puede simplificar significativamente la exploración básica de datos. Sin embargo, existen otros retos que tener en cuenta al proporcionar a los usuarios acceso a datos. Por ejemplo: Un modelo UDM que admite diversos tipos de consultas de distintos usuarios podría alcanzar un gran tamaño. ¿Cómo se puede asegurar que un usuario que trabaja en determinada tarea no se ve inundado de información irrelevante? ¿Cómo se solucionan los requisitos de los usuarios globales, que desean ver los informes en su lengua materna? ¿Cómo se simplifica la consulta de preguntas comunes sobre aspectos temporales? Por ejemplo, puede que un usuario desee mostrar ventas comparadas con el mismo período del año pasado.
En esta sección se proporcionan algunas respuestas a estas preguntas para mostrar cómo el modelo UDM admite la ampliación del modelo básico para habilitar una exploración de datos más avanzada. Jerarquías
Aunque la consolidación de todos los atributos de una entidad en una dimensión simplifica en gran medida el modelo al usuario, existen relaciones entre los atributos que no puede expresar una lista simple. En el caso anterior, Category, Sub Category? y SKU definen una de las jerarquías en las que pueden organizarse los productos. El modelo UDM permite definir estas jerarquías porque los usuarios a menudo desean realizar análisis en función de ellas. Por ejemplo, después de ver los totales por Category, el usuario podría obtener más detalles en Sub Category y, desde ahí, más detalles en el nivel SKU inferior. Cada jerarquía es una secuencia de atributos que puede utilizarse para simplificar los escenarios de aumento o reducción de detalles en las consultas.
El siguiente diagrama es un ejemplo de cómo podrían aparecer jerarquías en una interfaz que se muestra al usuario final. El modelo contiene varias jerarquías diferentes en las que se pueden organizar los productos. La consulta que se muestra responde a esta pregunta: “mostrar ventas y cuotas por categoría de producto y desglosar en subcategorías”. Para definir la consulta, se arrastró la jerarquía “Products By Category” hasta la cuadrícula. Para ver los datos detallados, el usuario hace doble clic en la categoría “Bike” para expandir las subcategorías.
El modelo UDM controla los detalles sobre cómo moverse por los niveles de una jerarquía. También controla detalles, como el hecho de que Quotas no está disponible en el nivel Sub Category, sólo en el nivel Category.
Un tipo especial de jerarquía es la jerarquía de elementos primarios y secundarios, que contiene entidades que mantienen una relación intrincada entre sí. En la siguiente ilustración, la dimensión Employee posee una jerarquía denominada “Employees By Organization Structure”. El uso de esta jerarquía simplifica el desplazamiento por la relación de elementos primarios y secundarios, y el análisis de valores resumidos en cada nivel de la organización. Por ejemplo, la cuota del vicepresidente de ventas, Charles Marshall, incluye la suma de las cuotas de venta de todos los empleados, además de las cuotas de venta asociadas directamente a él.
Categorización
Los usuarios aplican de forma natural categorizaciones a los datos. Por ejemplo, un usuario podría decir “estos atributos son datos personales de los empleados” o “este atributo es una dirección de correo electrónico”. El modelo UDM proporciona dos mecanismos destinados específicamente a ofrecer un valor adicional con estas categorizaciones: Las dimensiones, los atributos y demás objetos pueden colocarse en categorías semánticamente significativas, lo que permite utilizar el objeto de manera más inteligente en una herramienta de cliente. Por ejemplo, puede marcarse un atributo como dirección URL. El informe que contiene este atributo podría luego permitir la exploración con los valores de la dirección URL. Se puede marcar otro atributo como dirección de correo electrónico. En este caso, un cliente de informes podría abrir automáticamente un nuevo mensaje de correo electrónico tras alguna acción del usuario. Las medidas, las jerarquías y demás objetos se pueden agrupar en carpetas que tengan sentido para el usuario. Esta agrupación permite que la herramienta de informes muestre grandes cantidades de atributos de manera manejable. Por ejemplo, puede crearse un grupo de atributos denominado “Customer Demographics”. Tiempo
La información temporal se registra generalmente en el origen de datos subyacente con los tipos de datos Date Time? o Date. Aunque los usuarios con conocimientos de SQL o X Path pueden extraer la información de fecha necesaria para los datos totales por año, les resultaría difícil plantear una consulta con preguntas en función de otros aspectos temporales, como “Mostrar las ventas por día de la semana” o “Desglosar por año fiscal, comenzando el 1 de julio”.
Sin embargo, el modelo UDM posee un conocimiento integrado del tiempo, que incluye los siguientes calendarios: Natural Fiscal De informes (“445″, etc.) De fabricación (13 períodos) ISO 8601?
Por lo tanto, el modelo puede incluir una dimensión de tiempo que proporcione un amplio conjunto de atributos que definan detalles de cada día. En la siguiente ilustración se muestran los resultados cuando el usuario opta por ver el importe y las cuotas de venta para el año fiscal 2001. Para ello, sólo tiene que arrastrar el elemento relevante del árbol hasta el área de filtro. El modelo UDM sabe cómo traducir esa acción del usuario en un intervalo de fechas y además comprende la regla de negocio que indica que deben incluirse en la consulta los pedidos enviados en estas fechas, no los programados ni los hechos. El modelo UDM realiza implícitamente la combinación correcta.
Además, el modelo UDM proporciona soporte específico para responder preguntas comunes relativas al tiempo, incluidas las comparaciones entre períodos, como “comparar este mes con el mismo mes del año pasado”. Traducciones
En los ejemplos anteriores, el contenido del modelo y los datos se muestra en un solo idioma. Sin embargo, los usuarios internacionales tienen que ver a menudo los metadatos en su propio idioma.
Para solucionarlo, el modelo UDM ofrece la traducción de metadatos en todos los idiomas. Una aplicación cliente que se conecte mediante una configuración regional específica recibiría los metadatos en el idioma correspondiente.
El modelo también puede proporcionar traducciones de datos. Un atributo puede asignarse a diferentes elementos en el origen de datos y ofrecer las traducciones de estos elementos en distintos idiomas. Por ejemplo, si el usuario se conecta mediante la misma herramienta utilizada en los ejemplos anteriores, pero desde un equipo con configuración regional en francés, el modelo y los resultados de las consultas aparecerían en francés, como se muestra en la ilustración.
Perspectivas
Aunque el modelo utilizado en este ejemplo es de tamaño reducido, los modelos reales pueden tener un ámbito más amplio, con decenas de medidas y dimensiones, y cada dimensión con decenas o cientos de atributos. Por lo general, los usuarios asignados a una tarea específica no necesitan ver el modelo completo. Para no abrumar a los usuarios con el tamaño total del modelo, es preciso poder definir una vista que muestre un subconjunto del modelo.
El modelo UDM proporciona estas vistas, denominadas perspectivas. El modelo UDM puede presentar varias perspectivas, cada una de las cuáles sólo presenta determinado subconjunto del modelo (medidas, dimensiones, atributos, etc.) relevante para un grupo de usuarios concreto. Cada perspectiva puede asociarse a las funciones de seguridad del usuario que definen los usuarios a los que se permite ver dicha perspectiva.
Por ejemplo, puede definirse una perspectiva denominada “Seattle Inventory” que sólo incluya medidas del grupo de medida Inventory, oculte la jerarquía “Warehouse By Location” y establezca como ciudad predeterminada “Seattle”. Semántica de atributos
Un modelo UDM proporciona una semántica adicional para los atributos. Esta semántica tiene por objeto simplificar el uso de la información. Estos son algunos ejemplos de semántica que se pueden aplicar a los atributos: Nombres en lugar de claves: Si se observa la base de datos relacional, quizá no resulte evidente que Employee ID? es una clave única y sin significado generada por el sistema. Para resolver este problema, el modelo UDM permite que el atributo Employee tenga tanto una clave (el Employee ID único) como un nombre (por ejemplo, una concatenación de First Name? y Last Name?). De este modo, una consulta del tipo “mostrar los empleados” distinguirá correctamente los empleados de igual nombre, mediante sus Id. únicos, y mostrará al usuario el nombre significativo. Ordenación: Los valores de atributos a menudo deben mostrarse con un orden fijo que no es un simple orden numérico o alfabético. El modelo UDM permite definir una ordenación predeterminada para administrar este requisito. Por ejemplo: Los días de la semana se muestran como Domingo, Lunes, Martes, etc. Las prioridades se muestran en el orden Alta, Media y Baja. Discretización: En los atributos numéricos, a veces no resulta útil mostrar los distintos valores del atributo. Por ejemplo, resulta menos útil ver las ventas para los distintos precios de un producto (9,97$, 10,05$, 10,10$, etc.) que verlas por intervalo de precios (<10$, 10$ - 15$, etc.). El modelo UDM permite discretizar los atributos en estos intervalos mediante distintos criterios. Indicadores clave de rendimiento (KPI)
Las empresas suelen definir indicadores clave de rendimiento (KPI), que son medidas importantes para evaluar el estado de las mismas. El modelo UDM permite crear estos indicadores KPI, para que las empresas puedan agrupar y presentar datos de una manera más comprensible. Un KPI puede también utilizar un gráfico para mostrar el estado de una tendencia, como un semáforo para indicar los valores bueno, normal o mal.
Cada KPI del modelo UDM define hasta cuatro expresiones para cada medida de rendimiento: Valor real Valor objetivo Estado Valor normalizado comprendido entre −1 y 1 que representa el estado real frente al objetivo (−1 es “muy malo” y 1 es “muy bueno”). Tendencia Valor normalizado entre −1 y 1 que representa la tendencia a lo largo del tiempo (−1 es “empeora” y 1 es “mejora”).
El uso de los KPI permite que las herramientas cliente presenten medidas relacionadas de forma que el usuario las entienda inmediatamente. En la siguiente ilustración se muestra un ejemplo de cómo una herramienta cliente puede mostrar tres KPI organizados en carpetas para mostrar.
Rendimiento
La exploración interactiva de los usuarios precisa tiempos de respuesta breves. Este requisito constituye un reto debido a la gran cantidad de conjuntos de datos en los que se suele realizar la exploración.
Para mejorar el rendimiento, el modelo UDM proporciona servicios de almacenamiento en caché. Las cachés pueden almacenar los datos detallados leídos del origen de datos subyacente y los valores de agregado precalculados a partir de dichos datos. Sin embargo, el uso de estos valores almacenados en la caché puede implicar cierto nivel de obsolescencia de los datos. Los requisitos empresariales dictarán cómo debe utilizarse la información actual. Puede que en algunos casos sea fundamental mostrar los datos más recientes, mientras que en otros casos sería completamente aceptable mostrar datos con una antigüedad de dos horas o dos días.
Para reflejar estas directivas que establecen la preponderancia de los datos, el modelo UDM permite administrar explícitamente la caché (por ejemplo, puede definirse una programación que actualice la caché diariamente a las 2 a.m.) o administrarla de forma transparente mediante el almacenamiento en caché automático. El usuario puede especificar el grado de actualización que deben tener los datos y el modelo UDM proporcionará la creación y administración automática de la caché para obtener el tiempo de respuesta más breve posible.
Análisis
En las secciones anteriores se explicaba cómo el modelo UDM admite la exploración interactiva de datos. No obstante, simplemente hacer que la información de los orígenes de datos subyacentes esté disponible, aunque sea de una forma más fácil de comprender y utilizar, no cumple el objetivo de incorporar la lógica de negocios en el modelo de los usuarios. Por lo tanto, el modelo UDM ofrece la posibilidad de definir cálculos simples y complejos en los datos. Análisis básico
Por lo general, las consultas devuelven datos agregados. Por ejemplo, una consulta típica muestra las ventas por categoría, en lugar de mostrar todos y cada uno de los pedidos de ventas. No obstante, no existe nada en los datos relacionales subyacentes que defina cómo se debe agregar una determinada medida. Por ejemplo, el importe de ventas puede sumarse, pero el precio unitario se debe promediar. El modelo UDM agrega esta semántica.
El método de agregación puede definirse mediante varios esquemas: Puede utilizarse una función de agregación simple, como Sum, Count, Distinct Count, Max o Min. La agregación se puede definir como de suma parcial. Esto significa que se utiliza una función simple, como Sum, para todas las dimensiones excepto Time, en la que se utiliza Last Period. Por ejemplo, aunque el nivel Inventory puede sumarse de Product a Product Category, el nivel de inventario del mes no es la suma de los niveles de inventario de cada día, sino el nivel de inventario del último día del mes. La agregación puede basarse en el tipo de cuenta, como Hincame en lugar de Expense. Puede personalizarse la agregación para cumplir los requisitos especiales.
Un modelo UDM también puede contener miembros calculados. Estos miembros no tienen una asociación directa con el origen de datos pero se derivan de estos datos. Por ejemplo, puede definirse un miembro calculado, como Variance, para calcular la diferencia entre Sales y Quota.
De forma similar, el modelo UDM puede definir conjuntos de entidades de interés para el usuario; por ejemplo, los 10 clientes principales (por volumen de ventas) o los productos más importantes. Estos conjuntos pueden utilizarse con facilidad para restringir el ámbito de una consulta a un conjunto específico de entidades. Análisis avanzado
Algunas veces los cálculos que necesitan los usuarios son bastante más complejos que el ejemplo “Variance” anterior. Éstos son algunos ejemplos de cálculos complejos: Mostrar la media móvil de tres meses para cada período. Comparar el crecimiento interanual de este período con el mismo período del año pasado. Si las ventas se muestran en la moneda base, volver a convertir las ventas a la moneda original utilizando la tasa de cambio media diaria en el momento de la venta. Calcular las ventas presupuestadas por categoría para el próximo año como un aumento del 10% sobre este año y asignar un presupuesto para cada producto según las ventas medias relativas de los últimos tres años.
El modelo UDM constituye un modelo completo para definir estos cálculos y se parece a una hoja de cálculo multidimensional, en la que el valor de una celda puede calcularse a partir de los valores de otras celdas. Sin embargo, ni siquiera esta metáfora puede describir adecuadamente la gran variedad de cálculos del modelo UDM. Una celda puede calcular su valor no sólo según el valor que hay en otra celda, sino también según el valor que suele haber en dicha celda. Por lo tanto, se admiten ecuaciones simultáneas; por ejemplo, los beneficios se derivan de los ingresos menos los gastos, pero las bonificaciones, que se incluyen en los gastos, se derivan de los beneficios.
Además de proporcionar el eficaz lenguaje MDX (Expresiones multidimensionales), que se ha diseñado específicamente para crear estos cálculos, el modelo UDM también permite la integración con Microsoft .NET. Esta integración permite escribir funciones y procedimientos almacenados en cualquier lenguaje .NET comprobable, como C#.NET o Visual Basic .NET. La función o el procedimiento almacenado puede invocarse luego en MDX para su uso en cálculos.
El cliente queda aislado de los detalles de estos cálculos. En las aplicaciones cliente, sólo parece que el modelo dispone de medidas más útiles. En el siguiente ejemplo, el usuario ve varias medidas calculadas en función de Sales para los productos más rentables vendidos en Estados Unidos.
Integración con minería de datos
La posibilidad de mostrar los datos en un formato completo y comprensible resulta de gran utilidad, pero los usuarios necesitan además poder inferir nueva información a partir de esos datos.
El modelo UDM contiene la tecnología de minería de datos para permitir minar los datos y utilizar los patrones descubiertos para la predicción.
Hacer que los datos se puedan procesar
Al ver datos con frecuencia, un usuario se plantea inmediatamente otras preguntas o la necesidad de realizar alguna acción. Por ejemplo: “¿Cuáles son las ventas detalladas que contribuyen a esa cifra?” “La cuota es muy baja, necesito aumentarla”. “Parece extraño, voy a marcar el número con un comentario” “¿Qué detalles de la promoción tenemos en el sitio Web?”
No es suficiente presentar los datos a los usuarios de una forma fácil de comprender. También es necesario facilitarles la realización de una acción según los datos que vean.
El modelo UDM admite esta característica de dos formas: Permite que se vuelvan a escribir cambios en los datos. Habilita la asociación de acciones a los datos. Reescritura
El modelo UDM no es de sólo lectura. En el modelo UDM también pueden actualizarse los datos. En el caso de medidas, las actualizaciones pueden almacenarse de forma independiente de los valores originales, como diferencias de esos valores.
Además, también es posible actualizar los números de resumen. Por ejemplo, considere un escenario de Budgeting. El importe presupuestado se puede llegar a conocer hasta un nivel detallado (por equipo y cuenta), pero inicialmente los valores sólo se conocen en un nivel más resumido (por departamento y tipo de cuenta). Acciones
El modelo UDM admite acciones como un vínculo entre los datos y una acción realizada basada en los datos. Los principales tipos de acciones son: Dirección URL: Ir a una dirección URL específica. Este tipo de acción admite que se dirija al usuario a una dirección URL para que obtenga información adicional o a una aplicación basada en Web que le permita realizar una nueva tarea. Por ejemplo: Para un producto, ir al sitio Web de la compañía en donde se describe el producto. Para una combinación de producto y almacén, ir a la aplicación de administración de inventarios basada en Web y convertir el producto y el almacén en parámetros para permitir aumentar el nivel de inventario de seguridad. Informes: Ejecutar un informe específico. Por ejemplo, para un producto dado, la acción puede ejecutar un informe con parámetros del producto que proporcione la descripción del producto y el estado de pedido actual. Obtención de detalles: Obtener los detalles del nivel inferior de detalle disponible. Por ejemplo, un usuario que observa las ventas totales por producto y cliente puede obtener los detalles para ver las transacciones de venta que contribuyen al total.
Las acciones pueden asociarse con regiones específicas de datos. Por ejemplo, podría aplicarse una acción para explorar una página Web para cada producto, pero la acción para ver las transacciones de transferencia de inventario detalladas se aplicaría a cada valor de Quantity por producto y almacén.
Aunque las acciones se definan como parte del modelo UDM, es responsabilidad de la aplicación cliente recuperar los detalles de las acciones aplicables, ofrecerlas al usuario e iniciar la acción necesaria.
Seguridad
Puede controlarse el acceso al modelo UDM. Las principales características de seguridad son las siguientes: El modelo UDM proporciona una seguridad basada en funciones. Se pueden definir funciones, conceder permisos a las funciones e incluir usuarios como miembros de cada función. Los permisos actuales de un usuario son el conjunto de los permisos concedidos a las funciones a las que pertenece el usuario. Los permisos de una función pueden incluir “denegaciones seguras”, que quitan derechos con independencia de otras funciones a las que pueda pertenecer el usuario. Los permisos administrativos (por ejemplo, para cambiar un modelo UDM) pueden concederse con independencia de los permisos de acceso. Además, se pueden definir permisos independientes para la lectura de metadatos del objeto y para el acceso de lectura y escritura a los datos. Pueden protegerse los datos en niveles de granularidad hasta las celdas individuales. Por ejemplo, se puede limitar la posibilidad de que los usuarios vean las ventas del producto “Widget” al cliente “ACME”. La seguridad también puede ser condicional; por ejemplo, puede permitirse que una función vea el salario total de un departamento sólo si éste cuenta con más de cinco empleados. Los permisos pueden definir si deben usarse los totales visuales, en cuyo caso los totales sólo reflejan los miembros de nivel inferior en los que tiene permisos el usuario. El acceso a celdas también puede ser contingente, lo que significa que sólo se pueden ver las celdas derivadas de otras celdas si también se pueden ver las demás celdas. Por ejemplo, si los beneficios se derivan de ingresos y gastos, los usuarios sólo pueden ver los beneficios de los productos para los que tienen permisos para ver tanto los ingresos como los gastos.

Operadores Para Manejo De Cubos De Datos Del Estandar Sql 3
Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.
A la información de un cubo puede acceder el ejecutivo mediante “tablas dinámicas” en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.

Utilizacion Herramientas Para Olap
Uso de herramientas OLAP (data warehouse)
Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en información importante para la organización.
Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser:
Herramientas de consultas / reportes, con interfaz gráfica, sin usar sentencias SQL, realizar queries o peticiones complejas.
Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.
Modelo Multidimensional: Modelo estilo hoja de cálculo.
a. Elementos:
Medidas: Valores de interés
Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados en forma de arreglos multidimensionales.
b. Visión de Relaciones :
Tablas de hechos (Fact Table): Ejemplo: ventas.
Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.
Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.

Mercados De Datos Data Mart
DATA MART
Un Data Mart es una version especial almacén de datos (data warehouse). Como los almacenes de datos, los data marts contienen una visión de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el análisis de tendencias y experiencias pasadas. La diferencia principal es que la creación de un data mart es especifica para una necesidad de datos seleccionados, enfatizando el fácil acceso a una información relevante.
Introduccion de data Mart
Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares.
Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un EIS (Executive Information System)

Definiciones Conceptos Mercados Datos
Definiciones de Data Mart
Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica.
Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
Datamart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un Data Warehouse? para uso departamental
Por lo tanto para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información
Diferencias entre Data Mart y Datawarehouse
El Data Mart se centra solamente en los requerimientos de usuarios asociados con un departamento o función de negocio
Los Data Marts normalmente no contienen datos operacionales detallados a diferencia de datawarehouse.
Debido a que los data marts contienen menos información comparados con los datawarehouse, los data marts son más fácilmente entendibles y navegables.
Razones para crear un Data Mart
Dar a los usuarios acceso a los datos que ellos necesitan para analizarlos mas a menudo
Proveer los datos en una forma que concuerda la vista colectiva de los datos por un grupo de usuarios en un departamento o función de negocio
Mejorar el tiempo de respuesta al usuario final debido a la reducción en el volumen de información a ser accedido.
Proveer datos apropiadamente estructurados para satisfacer los requerimientos de las herramientas de acceso de usuario final.
Beneficios de un Data Mart
pueden fácilmente extenderse a la toma de decisiones estratégicas, que pueden brindar beneficios grandes y tangibles
Permite entender y administrar simultáneamente macro y microperspectivas del área de comercio exterior, lo que puede ahorrar incontables horas de trabajo y ayudar a evitar errores que pueden ser el resultado de suposiciones que se hicieron con base en datos incompletos o incorrectos.

Fases Construccion Mercados Datos
La Fase de Construcción:
1.- Construcción del Data mart:
Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.
2.- Construcción de los Procesos de Cargas:
En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.
3.- Construcción de los reportes analíticos:
Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc .
4.- Construcción de los procesos de prueba:
Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.
bibliogafia: http://datamarting.org/info/index.php?option=com_content&task=view&id=28&Itemid=1
3.3.2 Fase de Construcción:
1.- Construcción del Data mart:
Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.
2.- Construcción de los Procesos de Cargas:
En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.
3.- Construcción de los reportes analíticos:
Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc .
4.- Construcción de los procesos de prueba:
Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados. Modelo Top Down
El modelo Top Down está basado en la estructura de la Data warehouse, la cual se construye a partir de los datos que se puedan obtener de los diferentes sistemas operacionales o externos (datos aislados) a través de un proceso de extracción, transformación y transportación (ETT)
Top Down: tiene como base un sistema de Data warehouse para toda la empresa y a partir de este se desarrollan los Data marts para las divisiones o departamentos.
Modelo Bottom up
En este modelo los Data marts se construyen a partir de los datos dispersos y la Data warehouse se construye a partir de los Data marts existentes, esta construcción se realiza a través de dos procesos diferentes de extracción, transformación y transportación.
En el primer proceso cada Data mart se construye con los datos aislados que son necesarios para satisfacer las funciones del departamento por medio de los procesos de extracción, transformación y transportación.
Un segundo proceso de tratamiento de datos (ETT) ocurre en el sentido de los Data marts hacia la Data warehouse.
El Modelo Paralelo
El diseño del modelo paralelo se basa en dos alternativas, en la primera se tratan los Data marts con entidades independientes de los Data waehouse y en la segunda, esta independencia se trata de forma temporal.
En el primer caso se enfoca la construcción de los Data marts como entidades independientes de la Data warehouse, utilizando el modelo de construcción de esta.
Consiste en llevar una construcción paralela entre ambas estructuras, sin definir como padre la Data warehouse sobre el Datamart, ni viceversa.
Modelo Top down con Retroalimentación.
Este modelo incluye la posibilidad de agregar datos que no estén presentes en la Data warehouse y que se requieran para cumplir con los requerimientos de un análisis específico.
El uso de la retroalimentación consiste en incluir nuevos datos a los Data marts de la empresa, como una primera fase y consecuentemente estos cambios ocurridos en el Data mart sean integrados a la Data warehouse como la segunda fase.
Modelo Bottom up con Retroalimentación
Permitir que la integración de los datos e información dada en los Data marts se pueda implementar durante la construcción de la Data warehouse.
Modelo Paralelo con Retroalimentación
El desarrollo principalmente trabaja con la retroalimentación que tenga el Data mart, ya que su inicio depende de un período de ajuste entre éste y el modelo de datos de la Data warehouse. Mientras las entradas y salidas se estén dando en los Data marts, en la Data warehouse estos mismos se están realizando, dado a las características de paralelismo que existe entre ellos.

Tecnologias Mercados Datos
TECNOLOGIAS DATAMART:
Aspect Data Mart es una solución completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solución consolida datos de múltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y así poder identificar rápidamente los procesos de cambio necesarios.
Destacados
Consolidación y fácil análisis de datos de múltiples sitios, canales y plataformas.
Perspectiva a nivel empresarial de las operaciones del centro de contacto.
Informe integral que ayuda a dar un servicio al cliente personalizado.
Integración de datos desde el almacén de datos corporativo actual para tener un panorama completo de sus negocios.
Interfaces customizables para fuentes de datos comunes de centros de contacto.
3.3.3. TECNOLOGIAS
Herramientas Front-end
Herramientas de BD

Herramientas Front End
3.3.3.1 HERRAMIENTAS FRONT-END
También conocidas como herramientas de acceso a los datos o herramientas de presentación.
El front-end es la parte del software que interactúa con el o los usuarios
Herramientas “front-end”
• Herramientas de consulta: usan consultas predefinidas y las capacidades de información incorporadas para que los usuarios tenga accesos a los datos.
• Aplicaciones de usuarios: Muchos programas de aplicación comunes como Microsoft Excel pueden proporcionar acceso “front-end” a bases de datos de apoyo.
• Herramientas de desarrollos de programas: Muchas instalaciones cliente-servidor necesitan aplicaciones “front-end” especiales personalizados para sus tareas de obtención de datos.
Son esenciales para acceder y analizar los datos en el datamart.
El valor de un datamart es difícil de determinar por la habilidad del usuario para extraer la información más significativa sobre la cual se toman las decisiones del negocio.
Un interfaz de usuario efectivo minimiza el número de acciones de usuario requeridas para obtener el resultado deseado por lo que deberá estar navegando intuitivamente a no ser que el usuario memorice los comandos.
Las herramientas de acceso a la información pueden soportar acceso, análisis, visualización y data mining de los datos de una forma predefinida
Interfaz Front-End. Es una aplicación donde los usuarios interactúan directamente con las funciones del sistema, cubre todas las interfaces con las cuales un usuario interactúa con los sistemas, ya sean locales o remotos, sus funciones principales son:
Diseño de formatos.
Presentación.
Lógica de la aplicación.
Manipulación de datos.
Herramientas de consulta.
Utilerías/menús

Herramientas De Bases De Datos
HERRAMIENTAS DE BASE DE DATOS
• Base de Datos Multidimensional: Llamada DATAMART en la cual se guardan los datos históricos correspondientes a los indicadores de gestión de calidad de DB Access. Todas las bases de dato se construyeron con SQL Server 2000.
3.1.2.1 Modelo Estrella de la Base de Datos Multidimensional
En la fase de análisis y diseño se realizaron los modelos estrellas, constituidos por las tablas de hecho y tablas de dimensiones para los indicadores de gestión de calidad de DB Access: Satisfacción del Cliente y Porcentaje de Utilización de Planta.
3.3.3.2 HERRAMIENTAS DE BD
En este tipo de herramientas elQueries Básicas y Reporting: usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, vía SQL (estándar para el acceso a las bases de datos relacionales).
El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algún informe complejo, por lo que su utilización directa no está recomendada a usuarios finales.
Queries y Reporting Avanzado:
Estas herramientas aportan una visión temática de las bases de datos relacionales (visión de negocio), mediante la cual el usuario final tiene una visión menos “técnica” del datamart.
Este tipo de herramientas pone una capa de términos que le son más familiares a los usuarios finales y establece, las interrelaciones de las tablas del datamart, de forma que sea más sencillo. Aún así, sigue siendo la estructura relacional básica la que subyace en estas herramientas.
Cognos:
A través de su interfaz simple al estilo de asistente, Cognos integra bases de datos y aplicaciones de Lotus Notes, el único producto de inteligencia de negocios que ofrece toda la gama de capacidades de inteligencia de negocios en una arquitectura única y probada.

Proceso Diseño Consultas Mercados Datos
3.3.4 Proceso de Consultas de Diseño de Mercado de datos
El diseño de bases de datos es el proceso por el que se determina la organización de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar .
PALO
• es un motor orientado a celdas, multidimensional, que está específicamente diseñado para mostrar información desde excel, para todo tipo de análisis

Mineria De Datos Data Mining
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Definiciones Conceptos Mineria De Datos
Según Fallad y sus coautores (1996): “La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.
Según Molina y sus colaboradores (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”.
Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperación y extracción de información, presentación, resumen de multidocumentos, minería de datos aplicada a textos, etcétera. Es un término que en dependencia del autor que lo emplee se restringen o se amplían sus esferas de aplicación.
consiste en la búsqueda de regularidades o patrones que se encuentran en un texto, a partir de técnicas de aprendizaje automático; por tanto, se considera como una de las muchas ramas de la lingüística computacional.Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.

Aplicaciones Mineria De Datos
Een la actualidad existe una gran cantidad de aplicaciones , en areas tales como:
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar que clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.
Hábitos de compra en supermercados
El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Recursos humanos
La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
Comportamiento en Internet
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo, cuando son clientes potenciales— en una página de Internet. O la utilización de la información —obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.
Terrorismo
La minería de datos ha sido citada como el método por el cual la unidad Able Danger del Ejército de los EE.UU. había identificado al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del “11-S” como posibles miembros de una célula de Al Qaeda que operan en los EE.UU. más de un año antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y sus homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, también han empleado este método.[1]
Juegos
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para determinados juegos combinacionales, también llamados finales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de inicio, se ha abierto una nueva área en la minería de datos que consiste en la extracción de estrategias utilizadas por personas para estos oráculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al funcionamiento de estos oráculos. En su lugar, la producción de patrones perspicaces se basa en una amplia experimentación con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseñados y con conocimiento de la técnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniería
En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:
Genética
En el estudio de la genética humana, el objetivo principal es entender la relación cartografía entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como “reducción de dimensionalidad multifactorial”.[2]
Ingeniería eléctrica
En el ámbito de la ingeniería eléctrica, las técnicas minería de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como los Mapas Auto-Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías.[3]
Análisis de gases
También se han aplicado técnicas de minería de datos para el análisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas DGA.

Diseño De Mineros De Datos
Un proceso típico de minería de datos consta de los siguientes pasos generales:
1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.
Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc.

Tecnicas Herramientas De Mineria De Datos
Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
• Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:
o El Perceptrón.
o El Perceptrón multicapa.
o Los Mapas Autoorganizados, también conocidos como redes de Kohonen.
• Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
• Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
• Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
• Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
• Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

lunes, 25 de mayo de 2009

UNIDAD 2 BASES DE DATOS Y TECNOLOGÍAS WEB

UNIDAD 2
BASES DE DATOS Y TECNOLOGÍAS WEB
2.1 Herramientas y Tecnologías Desarrollo Web
2.1.1 Intercambio Electrónico de Datos
2.1.2 e-commerc y e-bussines
2.1.3 e-learning
2.1.4 Sistemas Seguridad para desarrollos Web

BASES DE DATOS Y TECNOLOGÍAS WEB
Introducción.- Hoy en día estamos asistiendo a una auténtica revolución. Los avances en las comunicaciones y las nuevas tecnologías están acercando la información al usuario final, así como facilitando su procesamiento. Uno de los cambios más importantes, tiene que ver con el soporte y canal de transmisión de la información. Internet y las Tecnologías Web, han conseguido que el usuario esté familiarizado con información hipermedia, incluyendo texto, imágenes, audio y vídeo. Cualquier ordenador conectado a la red constituye una fuente fácil de entrada de información y de servicios. Este hecho hace que cada vez cobre más fuerza la idea de que nos encontramos inmersos en una “sociedad de la información”.
World Wide Web, o simplemente Web, constituye uno de los intentos más recientes y a la vez más poderosos de sistematizar y simplificar el acceso a la información en Internet. Este nuevo sistema ha revolucionado la forma en que los usuarios se comunican y utilizan los servicios de la llamada “red de redes”, y constituye la causa fundamental del espectacular aumento en el número de personas que usan Internet y de la popularidad e importancia que ha adquirido en la actualidad.
La Tecnología Web permite el desarrollo de aplicaciones distribuidas basadas en el modelo Cliente/Servidor. Las aplicaciones web suponen un importante cambio de enfoque con respecto al desarrollo de aplicaciones tradicionales. Su principal característica consiste en que la comunicación con el usuario se establece utilizando páginas web, que se pueden visualizar desde un navegador que se esté ejecutando en cualquier ordenador conectado a la red. Otra característica importante, consiste en que el código de la aplicación se puede ejecutar en el cliente, en el servidor o distribuirse entre ambos. Además debido al gran volumen de información que se maneja, las aplicaciones web suelen utilizar una Base de Datos, para organizar y facilitar el acceso a la información.
En este artículo se presentan las características básicas de una plicación web (sección 2). A continuación se hace una revisión de las tecnologías que se pueden utilizar en su desarrollo, distinguiendo entre las que optan por la ejecución en el cliente (sección 3.1) o en el servidor (sección 3.2). Se describen algunos ejemplos concretos (sección 4) y por último se introducen dos aspectos que van a marcar el futuro a corto plazo en Internet: el comercio electrónico (sección 5.1) y el lenguajes XML (sección 5.2).
La Tecnología Web permite el desarrollo de aplicaciones distribuidas basadas en el modelo Cliente/Servidor. Las aplicaciones web suponen un importante cambio de enfoque con respecto al desarrollo de aplicaciones tradicionales. Su principal característica consiste en que la comunicación con el usuario se establece utilizando páginas web, que se pueden visualizar desde un navegador que se esté ejecutando en cualquier ordenador conectado a la red. Otra característica importante, consiste en que el código de la aplicación se puede ejecutar en el cliente, en el servidor o distribuirse entre ambos. Además debido al gran volumen de información que se maneja, las aplicaciones web suelen utilizar una Base de Datos, para organizar y facilitar el acceso a la información.

2.1 HERRAMIENTAS Y TECNOLOGIAS DESARROLLO WEB
2.1.1 INTERCAMBIO ELECTRÓNICO DE DATOS
Introducción.-Hoy en día, el sistema informativo contable de cualquier empresa, por pequeña que sea, se encuentra informatizado, de forma que habitualmente se logran unos elevados niveles de automatización de las tareas administrativo-contables. Por ejemplo, es frecuente que se encuentren integrados los programas de contabilidad con los que gestionan la tesorería o la nómina y que estos datos se procesen muy rápidamente.
Pero suele suceder que dos empresas que mantienen una intensa relación comercial cliente-proveedor y que disponen de sendos sistemas informativos contables avanzados, realicen sus transacciones económicas introduciendo las órdenes de compra, las facturas y el resto de documentos en sobres, que posteriormente son enviados por correo. Hoy en día, también es habitual enviar estos documentos a través del fax, con lo que se agiliza la gestión. Si la empresa utiliza un fax-modem conectado al ordenador y gestionado por un programa informático, se evita tener que imprimir los documentos, enviándolos directamente desde su ordenador hasta el fax de la otra empresa.
Otra solución más sofisticada, pero menos frecuente, consiste en enviar dichos documentos a través del correo electrónico. El correo electrónico permite enviar mensajes entre diferentes ordenadores que estén conectados a redes de ordenadores como por ejemplo Internet o Compuserve. Sin embargo, este procedimiento no está exento de inconvenientes, debido a que el correo electrónico no está normalizado y, salvo que el cliente y el proveedor acuerden previamente componer de alguna forma sus mensajes, exige que el receptor traduzca los documentos recibidos. Además, el uso de mero correo electrónico no es un medio seguro para realizar las transmisiones comerciales ni garantiza su confidencialidad.
La solución que desde hace varios años están adoptando muchas empresas se denomina EDI o Intercambio Electrónico de Datos. El EDI básicamente consiste en transmitir electrónicamente documentos comerciales y administrativos entre aplicaciones informáticas, en un formato normalizado. En este trabajo describimos qué es el EDI, qué diferentes normas EDI existen, por dónde viajan los datos, cual es la estructura de un mensaje EDI, los beneficios y los costes que para una empresa puede suponer el implantar este sistema y el impacto que puede tener sobre la Contabilidad.
Toda auditoría informática chequea una larga lista de puntos a tratar: a modo de ejemplo, uno de ellos es detectar la existencia de personas insustituibles, situación que se da con más frecuencia de la deseable. Se debe tanto a la existencia de sistemas EDI sin documentación que explique sus características técnicas como a la alta rotación del personal informático. Ambos factores provocan que a veces haya una sóla persona que conozca el sistema. Esta es una situación muy arriesgada que hay que evitar.

Criptografía. La criptografía, cuyo nombre evoca las artimañas de los espías para cifrar mensajes, alcanza unos niveles de sofistificación extremos cuando se trata en un sistema informático. Los sistemas de clave simétrica garantizan la confidencialidad. Los sistemas asimétricos se utilizan para garantizar la autenticidad del envío, pudiendo utilizarse como firma digital. También existen las Autoridades de Certificación que actuan como terceros para que las empresas estén seguras de la autenticidad de los mensajes recibidos.

Mensajes precintados. Los mensajes se pueden precintar para asegurar que su contenido no se ha modificado, ni accidentalmente ni deliberadamente. Técnicamente la solución más frecuente pasa por enviar dos mensajes, uno contiene el documento EDI y otro incluye una serie de cálculos sobre los datos enviados en el anterior documento, de forma que si el mensaje EDI es modificado, aunque sea en una simple coma, se desprecinta y no cuadra con los cálculos que indica el segundo mensaje.
La utilización intensiva de herramientas ligadas al sector de las telecomunicaciones introducirá cambios importantes en muchas de las actividades típicas del contable. De entre todas las novedades que ligadas a esta tecnología repercutirán en la profesión contable, el EDI es la más inminente. Actividades como la facturación o el control de las existencias, con el EDI son automáticas. Esto supone, cuando el EDI está perfectamente integrado con el resto de aplicaciones informáticas, que la mayoría de los asientos se realizan de forma automática.
Algunas otras aplicaciones de las telecomunicaciones, como la utilización de agentes informáticos también tendrán un considerable impacto en la profesión contable. Según Keegan y Portik (1995) el contable se servirá de estos nuevos programas para realizar informes periódicos que combinen información interna y externa.
Si los contables deberán reciclarse para asumir las nuevas actividades que traerá el EDI, también los auditores verán modificadas muchas de sus formas de trabajar. Para (Teodoro 1994, pag 47), es previsible que la proliferación de sistemas EDI lleve a la utilización cada vez más acentuada de técnicas de auditoría asistida por ordenador (CAA). Los auditores tendrán acceso a archivos electrónicos de documentos, que pueden almacenarse en discos WORM (Write Once Read Many times). Este soporte es ideal para posteriormente realizar auditorías o inspecciones ya que que permite grabar los datos en ellos una sóla vez y leerlos cuantas veces se desee. Ante la imposibilidad de comprobar manualmente si coinciden todos los documentos aportados con los asientos contabilizados, el auditor actualmente utiliza técnicas estadísticas. Con el uso creciente de los soportes informáticos, se podrá evitar el muestreo, verificando automáticamente la validez de los registros.
A medio plazo, el departamento financiero de las empresas puede verse seriamente afectado por el outsourcing. Es decir, que tareas tradicionales del departamento contable-financiero las realicen proveedores. Para Teodoro (1994, pag 84), es frecuente que la proliferación de EDI plantee en algunos entornos la función de ciertos intermediarios dedicados a tareas administrativas o de control de existencias. Según Keegan y Portik (1995), una de las principales tareas del departamento financiero será precisamente identificar qué compañías son capaces de realizar mejor los servicios.
Otra característica de este fin de siglo es el avance imparable de la normalización en todos los aspectos de la economía, que afectará a la profesión contable. Estos intentos de normalización no sólo involucran a las prácticas contables, gracias el esfuerzo de los organismos internacionales de contabilidad sino a otros niveles, como el expuesto en este trabajo relativo a cómo circula la información contable normalizada a través de las redes de comunicación.
Alvarez (1995) explica que la organización del departamento de Contabilidad de cualquier empresa pasa necesariamente por la captura y organización de los “papeles”. Estamos de acuerdo con esta afirmación pero nos atrevemos a sustituir la palabra “papeles” por el término más general de “documento”, independientemente de si el soporte físico es papel, un fichero informático o una sucesión de impulsos eléctricos. De otra forma, el fin del milenio puede coincidir con el fin del contable

2.1.2. ECOMMERCE Y EBUSSINESS
E-commerce
Comercio electronico.
El E-commerce (Comercio Electrónico) es la compra y venta de bienes y servicios a través de internet y más específicamente en el World Wide Web. Es intercambio electrónico de datos de computadora a computadora entre Socios Comerciales (cadenas), con la finalidad de ahorrar tiempo al eliminar los tradicionales métodos de preparación y envío de documentos a través de mensajería. A la vez, tiene la ventaja de ser un método más seguro y confiable para el manejo de información.
Las tendencias de las grandes empresas en la actualidad es la de optimizar y simplificar todas las operaciones de su empresa; para lograr esto, tiene que adoptarse métodos modernos de administración, producción, control y comunicación, entre los cuales se encuentra ED.
Podríamos decir que el E-commerce está estructurado por “Tiendas virtuales” en sitios web que ofrecen catálogos en línea. Incluso se han creado “Centros comerciales virtuales” con gran cantidad de tiendas con todo tipo de accesorios para la venta.
Ventajas.
Permite el acceso a mayor información.
Los pedidos que se realizan son mas rápidos.
Disponibilidad las 24 horas.
Menos inversión en los presupuestos publicitarios.
Desventajas.
No conocer la empresa. Puede ser falsa.
Formato de pagos. No es 100% seguros algunos clientes tienen miedo de dar sus datos personales.
Conocer a quien vende. No se confía en quien vende algunas empresas pueden ser falsas.
Poder volver. Algunas veces no se aceptan devoluciones.
Intangibilidad. No se puede ver físicamente el producto.
Privacidad y seguridad. Algunas veces no es seguro dar nuestros datos pueden ser clonados.
E- BUSINES
Louis Gerstner, el CEO de IBM, en su libro, Quien dice que los elefantes no pueden bailar? Atribuye el término “e-Business” a IBM en 1996. Es la aplicación de las tecnologías de la información para facilitar la compraventa de productos, servicios e información a través de redes públicas basadas en estándares de comunicaciones.
Las aplicaciones basadas en los conceptos de e-business se caracterizan por ser interactivas, con alta intensidad de transacciones, y porque permiten un relanzamiento de los negocios hacia nuevos mercados.
El E-business utiliza el Web tanto como un medio, como un elemento de marketing para el comercio.
El e-business es la nueva forma de comercio en Internet, sin fronteras, con un nuevo planteamiento de los modelos empresariales, clientes globales, nuevos sistemas de pago y estrategias innovadoras.
DIFERENCIAS ENTRE E-COMMERCE Y E-BUSINESS
El e-commerce cubre los procesos por los cuales se llega a los consumidores, proveedores y socios de negocio, incluyendo actividades como ventas, marketing, toma de órdenes de pedido, entrega, servicios al consumidor, y administración de lealtad del consumidor.
El e-business incluye al e-commerce, pero también cubre procesos internos como producción, administración de inventario, desarrollo de productos, administración de riesgo, finanzas, desarrollo de estrategias, administración del conocimiento y recursos humanos.
La estrategia de e-commerce es más estrecha, está más orientada a las ventas y es más simple que otras iniciativas
En última instancia un sistema de e-business puede tomar múltiples formas y es la empresa quien debe decidir la mejor o más adecuada según sus necesidades.
A continuación describiremos brevemente los modelos que con toda seguridad más tendrán que digerir las empresas en los próximos años:
ERP (Enterprise Resuorce Planning). Podemos considerar este software como la tecnología subyacente de gestión interna sobre la cual basar el resto de modelos de negocio de e-business. El término ERP deriva de MRP (Material Requirement Planning) herramienta para el control de procesos productivos. Los sistemas ERP administran los procesos internos del negocio para la optimización de la cadena de valor que sirve a todos los departamentos dentro de la empresa. El software ERP incluye diversas funcionalidades: facturación, contabilidad, compras, producción, transporte, informes de gestión y recursos humanos entre otras.
SCM (Supply Chain Management). Gestiona los procesos de negocio tanto internos como externos de la empresa implicando a todos los agentes que directa o indirectamente están implicados, desde la producción a la distribución. El SCM incluye el aprovisionamiento de materias primas, proveedores, la atención al cliente, la logística y en general todo la cadena de valor de la empresa, optimizando los procesos más que automatizándolos, como es el caso del ERP. CRM (Customer Relatinship Management). Dirigido a todos los aspectos relacionados con la atención y el servicio al cliente, coordina a todos los departamentos involucrados en esta atención: departamentos de ventas, marketing y relaciones con los clientes. Las soluciones CRM gestionan conjuntamente el servicio de reclamaciones, la gestión de incidencias, vendedores y seguimiento de ventas. Al funcionar sobre sistemas de Datawarehouse permiten obtener perfiles de usuario, preferencias y hábitos de compra.
Marketplaces. Mercados virtuales para la venta, compra e intercambio de información entre múltiples participantes. Básicamente consiste en un directorio de empresas con información sobre los productos de cada una donde compradores y vendedores buscan productos o servicios, solicitan ofertas y procesan pedidos.
E-procurement. Abastecimiento electrónico de productos y servicios vía internet. Bajo estas plataformas se gestionan los procesos de compra a proveedores bien sean compras de productos directos (implicados en el proceso de producción del producto final): materias primas, o indirectas (no implicadas en el producto final): papelería, informática, servicios varios. La principal ventaja del uso de estas plataformas radica en el ahorro de tiempo en la gestión de compras, la comodidad y la reducción de los precios de adquisición de productos y la posibilidad de acceder a nuevos proveedores.
Existen más modelos de e-business como el BI (Business Intelligence) centrado en el apoyo a la toma de decisiones y la evaluación de indicadores de negocio. El KM (Knowledge Management) para la gestión del conocimiento y cuyo objetivo es lograr que la información dentro de una organización llegue a todo aquel que la necesite, procesada de forma tal que sea posible llevarla a la práctica. Pero antes de perdernos en la telaraña de siglas y posibilidades, es preciso comentar que la empresa debe más que nada comprenderlas y conocer las posibilidades para poder así aplicar modelos personalizados basados en las necesidades de cada organización, es lo que denominamos la convergencia en los distintos modelos de e-business para llegar a la e-organización. Como vemos, este nuevo uso de internet como herramienta de apoyo a la gestión global de la empresa no se presenta como la nueva panacea de los grandes beneficios. Lo que nos muestran estas soluciones son una nueva visión de internet como un terreno de enormes posibilidades para el desarrollo y fortalecimiento de las empresas.

2.1.3 E-LEARNING
El e-learning encuentra su origen en la educación a distancia, que en los comienzos se realizaba vía correo. Debido al desarrollo de las tecnologías y la aparición de Internet, este sistema se vio bastante favorecido, lo que permitió su utilización para las actividades educativas, y dando origen al e-learning; el término es si mismo se origino en publicaciones de los años 90.
GENERALIDADES DE E-LEARNING
• es un concepto de educación a distancia en el que se integra el uso de las tecnologías de la información y otros elementos didácticos para la formación, capacitación y enseñanza de los usuarios o estudiantes en línea.
• Utiliza herramientas y medios diversos como Internet, intranets, CD-ROM, producciones multimedia (Textos, imágenes, audio, video, etc.), entre otros… Literalmente e-learning es aprendizaje con medios electrónicos: enseñanza dirigida por la tecnología.
• El e-learning, dadas sus características y el soporte tecnológico que lo respalda, se constituye en una alternativa para aquellos que combinan trabajo y actualización, ya que no es necesario acudir a una aula permanentemente.
ESTA BASADO EN 3 CRITERIOS FUNDAMENTALES:
• trabaja en red, lo que lo hace capaz de ser instantáneamente actualizado, almacenado, distribuido, y permitiendo compartir instrucción o información.
• Es entregado al usuario final a través del uso de ordenadores utilizando tecnología estándar de Internet.
• Se enfoca en la visión más amplia del aprendizaje que van más allá de los paradigmas tradicionales de capacitación.
VENTAJAS
• podemos contar con una amplia gama de posibilidades favorables a los procesos de aprendizaje, como la capacitación basada en los computadores, salas de clases virtuales y colaboración digital a través de foros y chats en los que participan los estudiantes.
DESVENTAJAS
• está la disminución o falta de la relación estudiante - profesor, y el posible aislamiento del estudiante; por otra parte, los trabajos grupales se ven entorpecidos muchas veces por el uso del sistema. Por lo mismo, es que aún se puede mejorar considerablemente, integrando otras ámbitos del aprendizaje con esta herramienta.

2.1.4 SISTEMAS SEGURIDAD PARA DESARROLLOS WEB
HISTORIA.-La meta original del ARPANET era crear una red que funcionaría incluso si un cierto section(s) importante de la red falló o fue atacado. Así el Internet fue diseñado para ser robusto contra la negación de los ataques del servicio.
¿Qué es? Puede permitir o impedir, a diferentes usuarios el acceso a cierta información, pero en la red mundial de Internet se necesita de controles más efectivos en este sentido, ante posible espionaje, copia de datos, manipulación de éstos, etc. La identificación del usuario es una de las formas de guardar la seguridad. Las identidades y permisos de usuarios están definidas en los Archivos de Control de Acceso.
FUNCIONAMEINTO
Control de acceso. Una vez protegido de los extraños, es necesario determinar si el usuario es la persona que dice ser para posteriormente permitirle realizar aquellas operaciones a las que tiene acceso.
Controles de integridad. Protegen a los datos de ser, intencionalmente o por error, alterados durante su transmisión.
Esquema de seguridad que debe tener un sitio en Internet.
La seguridad de la red,
- La seguridad de la plataforma
- La infraestructura de CA (Autoridad de Certificación)
La seguridad en web tiene 3 etapas* primarias:
– Seguridad de la computadora del usuario
Los usuarios deben contar con navegadores y plataformas seguras, libres de virus y vulnerabilidades. También debe garantizarse la privacidad de los datos del usuario.
– Seguridad del servidor web y de los datos almacenados ahí Se debe garantizar la operación continua del servidor, que los datos no sean modificados sin autorización (integridad) y que la información sólo sea distribuida a las personas autorizadas (control de acceso).
– Seguridad de la información que viaja entre el servidor web y el usuario Garantizar que la información en tránsito no sea leída (confidencialidad), modificada o destruida por terceros. También es importante asegurar que el enlace entre cliente y servidor no pueda interrumpirse fácilmente (disponibilidad).
Ataques – Navegador
Java.
– En la actualidad es más o menos seguro. Vulnerable a ataques enfocados al usuario.
Javascript.
– Inseguro, se puede enviar información desde formularios html, problemas enfocados a la privacidad.
Phishing
– Suplantación de identidad que busca apropiarse de datos confidenciales de usuarios de la red, por medio de una página que imita a la original.
Ataques – Servidor Web
Puertas traseras
– Mecanismos que permiten el acceso a un sistema, evadiendo los controles de acceso del servidor. En ocasiones, dejados intencionalmente por los programadores, en otros casos dejados inadvertidamente por el administrador.
Ingeniería social
– Es la técnica especializada o empírica del uso de acciones estudiadas o habilidosas que permiten manipular a las personas para que voluntariamente realicen actos que normalmente no harían.
Fuerza bruta
– Técnica que consiste en intentos reiterados de accesar por medio de los controles de acceso legítimos, buscando algún password débil.
Ataques – información en tránsito
Sniffing
– Ataque pasivo enfocado a la recolección de información, esto es posible en redes que comparten el mismo medio (ethernet, campo fértil para los atacantes)
– Información interesante en tránsito: logins, passwords, correos, tareas, mensajero, icq, etc.
SSL MiTM
– Secure Sockets Layer
– SSL es utilizado en conexiones bancarias por tradición, pero se implementa en cualquier esquema seguro de transferencia de información. (POP3S, IMAPS, HTTPS)
– Forma un túnel seguro, dentro del cual se pueden meter otros protocolos de red (encapsulamiento).
SSL funciona por medio certificado público que envía el servidor a todos los clientes.
Los clientes cifran la información que envían con dicho certificado, a su vez envían una llave criptográfica con la que el servidor podrá cifrar a la inversa.

UNIDAD 2 BASES DE DATOS Y TECNOLOGÍAS WEB
2.2 XML
2.2.1 Fundamentos de XML
2.2.2 Diseño Aplicaciones Web Usando XML
2.2.3 Productos XML
2.2.3.1 Middleware
2.2.3.2 Bases de datos
2.2.3.3 Sistemas Administración de Contenidos
2.2.3.4 Motores de Consulta

2.2.1 FUNDAMENTOS XML
XML es un lenguaje de marcas que ofrece un formato para la descripción de datos estructurados, el cual conserva todas las propiedades importantes del antes mencionado SGML. Es decir, XML es un metalenguaje, dado que con él podemos definir nuestro propio lenguaje de presentación y, a diferencia del HTML, que se centra en la representación de la información, XML se centra en la información en si misma. La particularidad más importante del XML es que no posee etiquetas prefijadas con anterioridad, ya que es el propio diseñador el que las crea a su antojo, dependiendo del contenido del documento. De esta forma, los documentos XML con información sobre libros deberían tener etiquetas como , , , , etc., mientras que los documentos XML relacionados con educación incluyen etiquetas del tipo de , , , , etc.
Por ejemplo en la siguiente tabla se muestra la información incluida por un código típico HTML y su versión equivalente en XML. Se puede apreciar en este ejemplo, que es mucho más fácil de entender la representación en XML.
HTML XML

Título	Autor	Precio
AutoSketch	Ramón Montero	33
Windows 98	Jaime Perez	3.250
Web Graphics	Ron Wodaski	8.975

AutoSketch
Ramón Montero
33

Windows 98
Jaime Perez
3.250

Web Graphics
Ron Wodaski
8.975

Objetivos y Orígenes
XML fue desarrollado por un grupo de trabajo bajo los auspicios del consorcio World Wide Web (W3C) a partir de 1996. Este fue constituido en 1994 con el objetivo de desarrollar protocolos comunes para la evolución de Internet. Se trata de un consorcio de la industria internacional con sedes conjuntas en el Instituto Tecnológico de Massachussets, de Estados Unidos, el Instituto Nacional de Investigación en Informática y Automática europeo y la Keio University Shonan Fujisawa Campus de Japón. El W3C tiene como misión la publicación para uso público de protocolos o estándares globales de uso libre. Al comenzar el proyecto, los objetivos planteados por el grupo de desarrollo del XML fueron diez puntos [Young M. 2000] :
XML debe ser directamente utilizable sobre Internet.
XML debe soportar una amplia variedad de aplicaciones.
XML debe ser compatible con SGML.
Debe ser fácil la escritura de programas que procesen documentos XML.
El número de características opcionales en XML debe ser absolutamente mínimo, idealmente cero.
Los documentos XML deben ser legibles por los usuarios de este lenguaje y razonablemente claros.
El diseño de XML debe ser formal, conciso y preparado rápidamente.
XML debería ser simple pero perfectamente formalizado.
Los documentos XML deben ser fáciles de crear.
La brevedad en las marcas XML es de mínima importancia.
XML es un formato basado en texto, específicamente diseñado para almacenar y transmitir datos. Un documento XML se compone de elementos XML, cada uno de los cuales consta de una etiqueta de inicio, de una etiqueta de fin y de los datos comprendidos entre ambas etiquetas. Al igual que los documentos HTML, un documento XML contiene texto anotado por etiquetas. Sin embargo, a diferencia de HTML, XML admite un conjunto ilimitado de etiquetas, no para indicar el aspecto que debe tener algo, sino lo que significa. Por ejemplo: un elemento XML puede estar etiquetado como precio, número de pedido o nombre. El autor del documento es quien decide qué tipo de datos va a utilizar y qué etiquetas son las más adecuadas.
En lugar de describir el orden y la disposición de la presentación de los datos, las etiquetas indican qué significa cada elemento de datos (si es un elemento , un elemento , etc.). Cualquier receptor de estos datos puede descodificar el documento y utilizarlo para sus propios fines.
Estándares abiertos
XML se basa en una tecnología desarrollada a partir de estándares probados y optimizada para la Web. La iniciativa XML consta de un conjunto de estándares relacionados entre sí:
XML (Extensible Markup Language). Es una recomendación, que significa que el estándar es estable y que los desarrolladores de Web y de herramientas pueden adoptarlo plenamente.
Namespaces. En XML es una recomendación que describe la sintaxis y la compatibilidad de los espacios de nombres para los intérpretes de XML.
DOM (Document Object Model). Es una recomendación que ofrece un estándar para el acceso mediante programación a los datos estructurados (a través de scripts), de modo que los desarrolladores puedan interactuar de forma coherente con los datos basados en XML y computarlos.
XSL (Extensible Stylesheet Language). XLS es la cara de presentación del XML. Este debe representar de forma independiente a la plataforma utilizada la información existente en los documentos XML.
XML Linking Language. Es un lenguaje que ofrece vínculos en XML parecidos a los de HTML, pero más potentes. Los vínculos pueden tener varias direcciones y pueden existir en el nivel de los objetos, no sólo en el nivel de las páginas.

2.2.2 DISEÑO APLICACIONES WEB USANDO XML
Características Principales
Extensible
Dentro de XML se pueden definir un conjunto ilimitado de etiquetas. Mientras que las etiquetas de HTML pueden utilizarse para desplegar una palabra en negrita o itálicas, el XML proporciona un marco de trabajo para etiquetado de datos estructurados. Un elemento de XML puede declarar que sus datos asociados sean el precio de venta al público, un impuesto de venta, el título de un libro o cualquier otro elemento de datos deseado. Al irse adoptando las etiquetas XML a lo largo de una intranet de alguna organización y a lo ancho de la Internet, habrá una correspondiente habilidad para buscar y manipular datos sin importar las aplicaciones dentro de las cuales se encuentre.
Representación estructural de los datos.
El XML proporciona una representación estructural de los datos que ha probado ser ampliamente implementable y fácil de distribuir. Las implementaciones industriales en la comunidad del SGML y en otros lugares han demostrado que la calidad intrínseca y la fortaleza industrial del formato de datos con estructura de árbol del XML. El XML es un subconjunto del SGML que está optimizado para su transmisión por Web; al estar definido por el Consorcio de la World Wide Web, asegura que los datos estructurados serán uniformes e independientes de aplicaciones o compañías. Esta interoperabilidad resultante está dando el impuso de inicio a una nueva generación de aplicaciones de Web para comercio electrónico [MSDN en línea. Introducción al XML].
El lenguaje XML proporciona un estándar de datos que puede codificar el contenido, la semántica y el esquema de una amplia variedad de casos que van desde simples a complejos, por ejemplo XML puede ser utilizado para marcar lo siguiente:
Un documento ordinario.
Un registro estructurado, tal como un registro de citas u órdenes de compra.
Un registro de datos, tal como el resultado de una consulta.
Metacontenido acerca de un sitio Web, tal como un Formato de Definición de Canal (Channel Definition Format, CDF).
Presentaciones gráficas, tales como la interfase de usuario de una aplicación.
Una vez que los datos estén en el escritorio del cliente, pueden ser manipulados, editados, y presentados de una gran variedad de maneras, sin viajes de regreso al servidor. Los servidores se pueden convertir ahora en más escalables, debido a las menores cargas de cálculo y ancho de banda. Además, dado que los datos son intercambiados en el formato XML, pueden ser fácilmente mezclados desde diferentes fuentes.
Los datos son separados de la presentación y el proceso.
El poder y la belleza del XML es que mantiene la separación entre la interfase de usuario y los datos estructurados. El HTML especifica como visualizar datos en un navegador, en cambio XML define el contenido. XML solo utiliza etiquetas para describir los datos, tales como el nombre de la ciudad, temperatura y presión barométrica. Para presentar los datos en un navegador XML, este utiliza hojas de estilo tales como el Lenguaje de Estilo Extensible (XSL) y las Hojas de Estilo en Cascada (CSS). El XML separa los datos de la presentación y el proceso, permitiendo desplegar y procesar los datos tal como usted desee, al aplicar diferentes hojas de estilo y aplicaciones.
Esta separación de datos de la presentación permite una integración de datos perfecta de fuentes diversas. La información de clientes, ordenes de compra, resultados de investigaciones, pagos de facturas, registros médicos, datos de catálogo y cualquier otra información se puede convertir a XML, permitiendo a los datos ser intercambiados en línea tan fácilmente como las páginas de HTML despliegan datos hoy. Los datos codificados en XML pueden ser transmitidos sobre la Web hasta el escritorio. No es necesario retroajustar información en formatos propietarios almacenados en bases de datos o documentos de mainframes y, debido a que se usa el HTTP para transmitir documentos XML sobre la red, no se necesitan cambios para esta función. Los documentos XML son fáciles de crear; si está familiarizado con el HTML, puede aprender rápidamente a crear uno.
Conversión de los datos XML en autodescriptivos.
Los datos codificados en XML son autodescriptivos, pues las etiquetas descriptivas están entremezcladas con los datos. El formato abierto y flexible utilizado por XML permite su uso en cualquier lugar donde sea necesario intercambiar y transferir información. Dado que el XML es independiente del HTML, se puede insertar código XML en documentos HTML. El W3C ha definido un formato mediante el cual se pueden encapsular en páginas HTML los datos basados en XML. Al incrustar datos XML en una página HTML, se pueden generar varias vistas a partir de los datos entregados, utilizando los datos semánticos que contiene el XML.

2.2.3 PRODUCTOS XML
Productos
El número de productos para utilizar XML con Bases de Datos está creciendo a una gran velocidad. Nuevos productos entran al mercado de forma constante. Aquí se realiza una clasificación de estos productos, mencionando cuales son las características genéricas de los mismos, que funcionalidades brindan y se analizan algunos de estos productos existentes en el mercado.
Antes de continuar, hay que realizar la aclaración de que los documentos XML pertenecen a dos categorías: "basados en datos" y "basados en documentos". Los documentos XML "basados en datos" son en los que XML es usado como un transporte de datos. Estos son por ejemplo órdenes de compra, registros de pacientes y datos científicos. Los "basados en documentos" son en los que XML es usado para representar documentos, como un manual de usuario, páginas estáticas, folletos de marketing. Este último tipo de documento se caracteriza por su estructura irregular.
Para grabar y recuperar datos en un documento "basados en datos", se necesitará una Base de datos, como puede ser una Base de Datos relacional o una orientada a objetos.
Para grabar y recuperar datos en un documento "basados en documentos", se necesita una Base de Datos de XML o un Sistema de Administración de Contenidos. Ambos está diseñados para almacenar fragmentos del contenido, como procedimientos, capítulos, y glosarios, y pueden incluir metadatos, como nombre del autor, fecha de revisión, etc. Un Sistema de Administración de Contenidos generalmente tiene funcionalidades adicionales, como editores, controladores de versiones, etc [Bourret R.,XML].

Categorías de Productos
Para realizar esta división de los productos que están vinculados a la tecnología XML se tomó en cuenta cuales son las características de los mismos, las funciones que cumplen y como interactúan con las Bases de Datos. Cabe destacar que a veces las diferencias entre algunas de estas categorías es un poco arbitraria, ya que los productos ofrecen funcionalidades muy variadas que implica que se superpongan entre las categorías. Se puede establecer que siete categorías de productos:
Middleware: Software que es invocado desde nuestras aplicaciones para transferir datos entre documentos XML y Bases de Datos. Orientados a aplicaciones "basados en datos".
Bases de Datos XML-Enabled: Bases de Datos que pueden transferir datos entre documentos XML y ellas mismas. Orientados principalmente para aplicaciones "basados en datos".
Bases de Datos de XML Nativo: Base de Datos que almacenan XML en su forma "nativa", generalmente tanto texto indexado como alguna variante del DOM. Son tanto para aplicaciones "basados en datos" o "basados en documentos".
Servidores XML: Plataforma que brinda servicio de datos (en forma de documentos XML) desde y hacia aplicaciones distribuidas, como e-commer Los documentos XML deben ser fáciles de crear ce y aplicaciones business to business. Orientados principalmente a aplicaciones "basados en datos".
Servidores de Aplicaciones XML: Servidores de aplicaciones Web que brindan servicio de XML a los navegadores. Son tanto para aplicaciones "basados en datos" o "basados en documentos".
Sistemas de Administración de Contenidos: Sistemas para administrar documentos legibles e incluyen soporte para editar, controlar las versiones, crear nuevos documentos a partir de documentos existentes. Principalmente destinados a aplicaciones "basados en documentos"
Motores de consulta de XML: Aplicaciones que permiten realizar consultas sobre documentos XML.

2.2.3.1 MIDDLEWARE
MIDDLEWARE
Middleware es software que es usado en aplicaciones "basadas en datos" para transferir datos entre documentos XML y Bases de Datos. Están escritos en diferentes lenguajes, pero la mayoría de estos utilizan ODBC, JDBC, o OLEDB. Aunque algunos de estos pueden enviar datos a través de Internet, la mayoría de estos necesitan ser usados con un servidor Web si se necesita acceso remoto a los datos.
Tipos de middleware
Se pueden clasificar los diferentes middleware en función de su escalabilidad y su tolerancia a fallos, aunque tomando en cuenta que esta investigación no fue corroborada, pueden haber otros tipos de clasificaciones:
Remote Procedure Call (RPCs) — El cliente realiza una llamada a procedimientos que están corriendo en máquinas remotas. Pueden ser síncronos o asíncronos.
Publish/subscribe — Este tipo de monitores middleware activan y entregan información relevante para los subscriptores.
Message Oriented Middleware (MOM) — Los mensajes enviados al cliente se recogen y se almacenan hasta que son solicitados, mientras el cliente continúa con otros procesos.
Object Request Broker (ORB) — Este tipo de middleware permite que los clientes envíen objetos y soliciten servicios en un sistema orientado a objetos.
SQL-oriented Data Access — middleware entre las aplicaciones y los servidores de base de datos.
Otras fuentes incluyen divisiones adicionales:
Monitores de Transacciones Distribuidas — Provee herramientas y un ambiente de desarrollo y despliegue de aplicaciones distribuidas.
Servidor de aplicaciones — Software instalado en una computadora para facilitar el servicio(ejecución)de otras aplicaciones.
Enterprise Service Bus — Una capa abstracta en el tope de un sistema de mensajería de empresa.

2.2.3.2 BASES DE DATOS
BASES DE DATOS XML-ENABLED
Este tipo de Bases de Datos son (usualmente relacionales) que brindan la posibilidad de transferir datos entre documentos XML y ellas mismas. Estas Bases de Datos son generalmente diseñadas para almacenar y recuperar documentos "basados en datos". Esto es porque los datos son transferidos desde y hacia tablas definidas por el usuario, en lugar de tablas especialmente diseñadas para modelar el documento XML. Sin embargo, muchas de estas pueden almacenar documentos "basados en documentos" en una sola columna.
Muchas de las Bases de Datos pueden publicar documentos en el Web, esto implica que la línea que separa entre las Bases de Datos XML-Enabled y los Servidores de XML es confusa, pero cabe destacar que estos últimos están diseñados primariamente para construir aplicaciones basadas en el Web. Con más claridad se puede diferenciar las Bases de Datos XML-Enabled y los Servidores de Aplicaciones XML, los cuales no puede recibir datos como documentos XML. Dentro de este tipo de Bases de Datos, encontramos los productos:

Producto Desarrollador
DB2 XML Extender and DB2 Text Extender® IBM®
Informix® Informix®
Microsoft SQL Server 2000® Microsoft®
Oracle 8i 9i® Oracle®
DB2 XML Extender y DB2 Text Extender. Desarrollador: IBM
El DB2 XML permite transferir datos entre documentos XML y DB2. Los DTDs de XML son mapeados a esquemas (y viceversa) con el lenguaje XML-based Data Access Definition (DAD). Una herramienta visual es provista para construir documentos DAD, de forma de mapear elementos y atributos a las tablas y columnas. Las aplicaciones son procedimientos almacenados, que invocan el Extender, quien luego guarda o trae datos basados en el documento DAD. El XML Extender administra documentos DAD y DTDs en sus propias tablas, evitando que las aplicaciones tengan que hacer esto y optimizando el acceso. Además, el DB2 Text Extender contiene una variedad de tecnologías para realizar búsquedas.

Informix. Desarrollador: Informix
Informix soporta XML a través de su traductor "Object Translator " y el producto "Web DataBlade." El Object Translator genera código, incluyendo la capacidad de que los objetos transfieran sus datos desde y hacia la Base de Datos. También soporta funcionalidades como transacciones y tipos de bloqueos pesimistas y optimistas. El soporte de XML está provisto a través de métodos generados que pueden transferir datos entre objetos y documentos XML. Los usuarios deben mapear los documentos XML a un árbol de objetos de datos con una herramienta visual. El Web DataBlade es una aplicación que crea Documentos XML desde templates conteniendo sentencias embebidas de SQL.

Microsoft SQL Server 2000. Desarrollador: Microsoft
Microsoft SQL Server 2000 soporta XML de tres formas distintas: La cláusula FOR XML en sentencias SELECT, consultas XPath que utilizan esquemas XML-Data, y la función OpenXML en procedimientos almacenados. Los esquemas XML-Data, también llamados "esquemas de mapeo", contienen atributos extras que mapean elementos y atributos a tablas y columnas. Esto modela un documento XML como un árbol de objetos de datos y son usados para consultar la Base de Datos usando un subset de XPath. Existe una herramienta gráfica para construir esquemas de mapeo.

La función OpenXML es usada para extraer cualquier parte de un documento XML como una tabla y puede ser usado como una tabla en la mayoría de los lugares donde estas son utilizadas, como por ejemplo en la cláusula FROM de una sentencia SELECT. Esto se puede utilizar en forma conjunta con una sentencia INSERT para transferir datos de un documento XML a la Base de Datos. Una expresión XPath identifica el elemento o atributo que representa una fila de datos. Inserts, updates, y deletes son realizados a través de documentos XML llamados "update grams". Estos contienen los datos de antes y después (ambos en caso de un update), solamente el después en el caso de un insert, y sólo el antes en caso de un delete.

Oracle 8i, 9i Desarrollador: Oracle
Oracle 8i puede almacenar documentos XML de tres maneras distintas: en el Internet File System (iFS), usando el utilitario para Java XML SQL, y como un objeto binario que puede ser buscado utilizando el Oracle Intermedia XML Search. Oracle 8i también incluye un número de otras herramientas relacionadas con XML, la más interesante de las cuales es el XML Class Generator, quien puede generar clases Java desde un DTD.

Con iFS, una o más definición de tipos de documentos definen como se van a mapear un documento XML como un árbol de objetos de datos específicos. iFS usa ese mapeo de documentos tanto para construir tablas en cuales el documento XML puede ser almacenado, y para transferir datos entre documentos XML y la Base de Datos. Oracle Intermedia XML Search es un utilitario que puede automáticamente indexar y buscar documentos XML y fragmentos de estos, de cualquier tamaño hasta 4 Gigabytes.
Oracle 9i incluye Base de Datos con soporte nativo de XML, e introduce un nuevo tipo de objeto de datos (XMLType).

BASES DE DATOS DE XML NATIVO
Dentro de las Bases de Datos de XML Nativo encontramos dos tipos de categorías:
Almacenamiento basado en texto Guarda el documento entero en forma de texto. Una estrategia simple es guardar documento como un BLOB (Binary Large Object) en una Base de Datos relacional o como un documento en un File system que brinde búsquedas sobre documentos.
Almacenamiento basado en el Modelo Grabar un modelo binario del documento en un repositorio de datos existente. Por ejemplo, estos deben mapear el DOM a tablas relacionales como los elementos, atributos o entidades.
Las Bases de Datos de XML Nativo difieren de las Base de Datos XML-Enabled en tres formas principales:
Las Bases de Datos de XML Nativo pueden preservar la estructura física, como también los comentarios, DTDs, etc. Mientras que las Bases de Datos XML-Enabled pueden hacer esto en teoría, pero es no es realidad en la practica.
Las Base de Datos de XML Nativo pueden almacenar documentos XML sin conocer su esquema (DTD).
La única conexión con los datos de una Base de Datos de XML Nativo es XML y las tecnologías relacionadas como XPath, DOM u otras API. En el otro sentido, las Base de Datos XML-enabled, ofrecen acceso directo a los datos como por ejemplo por ODBC.
Dentro de esta categoría podemos encontrar los siguientes productos:
Producto Desarrollador
4Suite - 4Suite Server® FourThought®
Birdstep DataBase Engine® Birdstep®
DbXML® The dbXML Group®
EXcelon® eXcelon Corp.®
Lore® Stanford University®
Virtuoso® OpenLink Software®

2.2.3.3 SISTEMAS DE ADMINISTRACIÓN DE CONTENIDOS
Los Sistemas de Administración de Contenidos sirven para almacenar, recuperar e integrar documentos XML. Estos incluyen características como editores, controladores de versiones y control de accesos a usuarios concurrentes. Estas ofrecen funcionalidades en el manejo de documentos, como por ejemplo controlador de versiones. La mayoría de los Sistemas de Administración de Contenidos pueden publicar XML en el Web, pero son primariamente diseñados para administrar documentos "basados en documentos".
Producto Desarrollador
Astoria® Chrystal Software®
BladeRunner® Interleaf®
Documentum® Documentum®
Dynabase® eBusiness Technologies®
Epic® Arbortext®
Frontier® UserLand Software®
GEM Content Management System® X.Systems®
GroveMinder® TechnoTeacher®
Hynet Directive® Hynet Technologies®
Information Manager® Interleaf®
POET Content Management Suite® Sorman®
Prowler® Infozone®
Target 2000® Progressive Information Technologies®

2.2.3.4 MOTORES DE CONSULTA DE XML
Motores de consulta XML son programas que puede realizar consultas sobre un Documento XML. Actualmente, existen una gran variedad de lenguajes: XQL, XPath, XML-QL, Quilt, XQuery, etc. Se espera que en el futuro el W3C logre estandarizar estos lenguajes en: XPath y XQuery.

Leslie Yajaira

domingo, 12 de julio de 2009

Unidad 3 Bodegas de Datos Datawarehouse

lunes, 25 de mayo de 2009

UNIDAD 2 BASES DE DATOS Y TECNOLOGÍAS WEB

Datos personales

Archivo del blog