miércoles, 2 de octubre de 2013

Datos Personales a Clics de Distancia

Aprovechando el hecho de que muchas personas se están dando cuenta (¡por fin!) de la importancia y valor que tienen sus datos personales, en gran medida gracias a todo el ruido que se ha generado por la entrada en vigencia de la ley 1581 de 2012, las intrigas de la Ley Lleras, el sistema P.U.M.A, las filtraciones sobre el espionaje de la NSA, etc., tuve la iniciativa de escribir el siguiente artículo con el ánimo, no de mostrar algo nuevo, sino por el contrario de ilustrar de manera práctica y evitando (al máximo) el uso de tecnicismos, un problema que se viene presentando desde hace bastante tiempo que involucra a una gran cantidad de instituciones del estado y de ciudadanos colombianos (Seguramente el problema también se presenta en otros países); además de ser un tema que recurrentemente menciono en mis clases y conferencias desde hace por lo menos 7 años, y que incluso dio pie para que la periodista Paloma Valencia Laserna escribiera en su espacio de El Espectador una columna publicada el 16 de enero de 2012, titulada “Estado; proveedor de los ladrones de identidad”  [enlace] en la que describe de manera muy clara el problema, sin embargo, después de todo esto no ha pasado absolutamente  nada y el problema se sigue presentando.

Pero ¿cuál es exactamente el problema del que hablo?, es básicamente que las hojas vida de una gran cantidad de aspirantes a cargos en instituciones del estado (que posiblemente actualmente sean trabajadores de estas),  se encuentran publicadas libremente en Internet y pueden ser encontradas muy fácilmente utilizando los motores de búsqueda más populares. Lo más grave es que estos documentos se encuentran publicados tal cual como fueron entregados por las personas, que seguramente no sabían que iban a ser subidas a Internet  y que una gran cantidad contiene de información sensible que se debería mantener en reserva como números telefónicos, direcciones de residencia, números de cédula, copias de los documentos de identidad, firmas manuscritas, digitalizaciones de documentos y en general información que contenga normalmente una hoja de vida.

Muchos alegarán que el motivo es la transparencia y combatir la corrupción el  hacer visible a toda la ciudadanía de quiénes son los aspirantes a cargos públicos, y no pongo en tela de juicio que se haya hecho con la mejor de las intenciones (por lo menos hay que darles el beneficio de la duda), sin embargo, dudo muchísimo que esta supuesta “política de transparencia” de publicar las hojas de vida (si es que tal política existe) haya aportado en algo a que bajen los niveles de corrupción en Colombia, poniendo al alcance de cualquiera datos privados como lo son la dirección de residencia, la firma manuscrita o el teléfono (entre otros) de muchas de estas personas, sin ningún tipo de mecanismo de ofuscación o filtro; dejando expuestos a una gran cantidad de ciudadanos a delincuentes que se lucran del robo de identidad, extorsionistas o empresas inescrupulosas que mercadean con los datos personales de las personas.

Quiero aclarar que publico esta información con fines netamente educativos e informativos, con el propósito de hacer visible una problemática que afecta directamente a una gran cantidad de personas y organizaciones, por lo que no me hago responsable por el mal uso que se le pueda dar a esta. También recalco que toda la información encontrada se encuentra publicada directamente en Internet por lo que no hay necesidad de aprovecharse de ningún tipo de vulnerabilidad técnica o evadir algún mecanismo de seguridad, en otras palabras no hay que "hackear" ningún sistema para poder obtener esta información, la única herramienta que se necesita es un navegador para acceder a los motores de búsqueda y creatividad en la generación de los criterios de búsqueda a utilizar. 

Por otra parte, también aclaro que este no es un problema exclusivo de las entidades del estado, el sector privado también tiene serios problemas en este aspecto (que podemos tratar en otro momento), y que además esta no es la única información que se encuentra publicada en Internet que puede poner en riesgo a las personas y las empresas, por el contrario es solo una pequeña parte del problema, dado que también se puede encontrar información de contratación, archivos que contienen información de pagos, cuentas bancarias, aspirantes a contratos con el estado, información sobre las tecnologías utilizadas en una entidad, nombres y datos de contacto de persona, etc. 

Además también existe la información “no visible”  que se encuentra embebida en los  documentos publicados (Imágenes, pdfs, doc, ppt, etc), a los que técnicamente se les conoce como metadatos, que contienen información que puede llegar a ser muy valiosa para un atacante que tenga como objetivo una entidad específica, tal como los nombres de los sistemas de una red local, rutas de impresoras, nombres de usuario de funcionarios, direcciones ip, entre otras cosas. Para los interesados en conocer acerca de la cantidad de información que se puede encontrar buscando en los metadatos recomiendo leer el artículo publicado en abril de 2012 por El Malígno, titulado “Análisis Forense de metadatos: Ejemplos ejemplares” [enlace], que con varios ejemplos ilustra la magnitud del problema.

Para ilustrar el procedimiento, vamos a hacer uso de los operadores de búsqueda “avanzados” que proveen los servicios de búsqueda en Internet,  en nuestro caso Google, combinados con la selección de algunos términos claves que nos permitirán generar los Google dork (criterios de búsqueda) que finalmente nos llevarán a la información que buscamos, esto tampoco es algo nuevo, por el contrario desde hace más de 10 años es una técnica ámpliamente conocida en el mundo de la seguridad de la información y se le llama “Google Hacking”; Wikipedia la describe como “… una técnica en informática que utiliza para filtrar información en buscador de Google. Además podemos encontrar otras aplicaciones de agujeros de seguridad en la configuración y el código informático que se utilizan en las páginas web.” [enlace]. De hecho el “Google Hacking” es una tarea que es prácticamente obligatoria cuando se realizan consultorías donde se desarrollan pruebas de penetración (o el mal llamado ethical hacking) contra la infraestructura informática de alguna organización.

El “Google Hacking” fue introducido inicialmente por Johnny Long (que ha escrito un par de libros al respecto) e inicialmente se utilizaba para buscar problemas de seguridad a través del uso del servicio de búsqueda de Google. Los interesados en profundizar en el tema y conocer todos los operadores avanzados del buscador de Google, les recomiendo que revisen el siguiente  artículo de xonico titulado “Hackeando con Google” [enlaceque ilustra en detalle el uso de esta técnica  y también consultar el Google Hacking Database [enlace(creado por Johnny Long), que contiene una gran cantidad de Google dorks que sirven para encontrar cosas como servicios sin mecanismos de autenticación, contraseñas, versiones de aplicaciones vulnerables y MUCHAS otras cosas .

Ahora bien, lo primero que vamos a hacer es dirigirnos a la página principal del buscador Google y decirle que filtre los resultados de búsqueda presentándonos solamente lo que se encuentre en sitios con nombre de dominio (Ver nombre de dominio [enlace]) que termine en “gov.co”  (sitios web de entidades del estado colombiano como presidencia.gov.co, policía.gov.co, etc.). Para esto utilizaremos el operador "site", que nos permite realizar búsquedas restringidas a  nombres de dominio específicos siendo tan detallados como queramos, es decir: site:co busca solo en nombres de dominio que terminen en co, site:gov.co solo en nombres de dominio de entidades del gobierno colombiano, site:presidencia.gov.co busca en nombres de dominio relacionados con la Presidencia de la república y así sucesivamente. El resultado que vamos a obtener debe ser similar al presentado en la siguiente imagen (Fig. 1), nótese que no hay espacios entre el operador (site:) y el término de búsqueda (gov.co):

Fig. 1 – resultados al usar el Google dork: site:gov.co como criterio de búsqueda.

Si observamos detenidamente los resultados, vamos a ver que se encontraron una gran cantidad de documentos (más de 19 millones), también vamos a ver que todos hacen referencia a sitios de entidades públicas colombianas, sin embargo, la mayoría apunta a la página principal de cada una de estas y a medida que vamos avanzando en los resultados podremos ver que aparecen otras páginas internas de estos mismos sitios, pero que en general no contienen los datos que nos interesan, es decir las hojas de vida.

Antes de llegar a nuestro objetivo, quiero presentar otro operador que es de bastante utilidad: filetype, el cual nos permite filtrar específicamente los resultados de búsqueda los documentos que tengan una determinada extensión o tipo de archivo. Por ejemplo, si queremos buscar solamente en documentos en formato pdf  usaríamos filetype:pdf, o en documentos de Microsoft Word filetype:doc (o también filetype:docx) y similarmente para cualquier tipo de archivo que se pueda encontrar en Internet  En nuestro caso, vamos a buscar solamente documentos en formato pdf combinándolo con el criterio anterior, es decir, nuestro Google dork sería: 

site:gov.co filetype:pdf 

Si lo quisiéramos interpretar en castellano se leería más o menos como “los archivos en formato PDF que se encuentran en sitios del estado colombiano”. La siguiente imagen ilustra el resultado de esta búsqueda (Fig. 2). Pruebe cambiar el termino pdf por doc, docx, xls, xlsx, ppt y pptx y observe los resultados.

Fig. 2 - Resultado de buscar archivos en formato pdf publicados en sitios del estado colombiano.

De manera similar, a los resultados anteriores podemos ver una inmensa cantidad de documentos en formato pdf, pero los resultados siguen siendo muy generales, convirtiendo en una cuestión de azar el poder encontrar una hoja de vida o algún documento que contenga la información que buscamos. Vamos entonces a hacer más específica la búsqueda pidiéndole a Google que nos presente los documentos en formato pdf que se encuentren en sitios del estado colombiano que contengan las palabras “hoja de vida” (incluyendo las comillas), para lo que utilizaremos el siguiente Google dork:

site:gov.co filetype:pdf “hoja de vida”

Como se puede observar en los resultados (Fig. 3), nos hemos aproximado bastante a la información que buscamos, de hecho entre los primeros resultados que aparecieron ¡hay 2 hojas de vida!, no obstante encontramos que la mayoría de los otros documentos, aunque contienen el término “hoja de vida”, no contienen ningún tipo de datos personales.

Fig. 3 - Resultados de búsqueda que se acercan a la información que nos interesa, pero todavía con mucho ruido

Para solventar este problema vamos a hacer aún más específica la búsqueda utilizando un conjunto de palabras que es comúnmente utilizado como una sección en las hojas de vida y es “Datos Personales”, por lo tanto nuestro Google dork quedaría de la siguiente manera:

site:gov.co filetype:pdf “hoja de vida” “datos personales”

Con este podremos obtener un resultado similar al que aparece en la siguiente imagen (Fig. 4):


Fig. 4 - resultados de búsqueda que muestran ahora sí, la información que nos interesa


Ahora sí, podemos finalmente observar es el problema del que les hablo y encontrarnos con una gran cantidad de documentos de hojas de vida que contienen datos privados de muchas personas, según Google hay aproximadamente 17.000 documentos que cumplen con el criterio, claro, esto no quiere decir que la totalidad sean hojas de vida y se puede comprobar navegando entre los resultados para ver que a pesar de que algunos cumple con el criterio, no todos contienen datos personales que nos interesen, no obstante, es considerable la cantidad de documentos que sí los contienen. Al dar clic en algunos de los resultados podemos ver que el problema es real y efectivamente en muchos casos se encuentran las hojas de vida de muchas personas como podemos verlo en las Fig. 5 y 6.

Fig. 5 - Fragmento de hoja de vida

Fig. 6 - Fragmento de hoja de vida y anexos

Ahora que me creen, veamos cómo podemos mejorar aún más nuestros resultados y obtener la mayor cantidad de información posible del buscador. Una cosa que no he mencionado es que Google solamente nos mostrará los primeros 1000 resultados de cada búsqueda, así haya un total de cientos de millones de estos, por lo que realmente se hace necesario optimizar nuestros criterios de búsqueda.

Para empezar, intente crear otras versiones del último Google dork generado y así encontrar otras cosas. Busque archivos en formato doc o docx, cambie el término “Hoja de vida” por “Curriculum vitae”, busque en dominios específicos como presidencia.gov.co, policía.gov.co, etc. o utilice otros términos o palabras que aparezcan comúnmente en las hojas de vida como soltero, soltera, casado, casada, etc. 

Hay muchas formas diferentes que se pueden utilizar para encontrar más hojas de vida, de hecho esto aplica para buscar cualquier tipo de información, puede ser utilizando nuevos términos, combinando otros operadores avanzados de búsqueda o descartando resultados que ya hayamos visto (o no nos interesen) con el operador ‘–‘ (guión) o combinar varios criterios (como buscar tanto archivos pdf como docx). Las posibles combinaciones son muchas,  por lo tanto recomiendo investigar más sobre los operadores avanzados de búsqueda y sobre Google Hacking, las referencias presentadas anteriormente pueden ser un buen punto de inicio, sin embargo, veamos algunos ejemplos. 

Una persona soltera que quiera encontrar candidat@s potenciales para entablar una relación amorosa podría usar los siguientes Google dork (en realidad no creo que esto funcione para conseguir novi@, sin embargo, me sirve el ejemplo para  dar entender la idea): 

Alguien en busca de mujeres escribiría:  

site:gov.co filetype:pdf “hoja de vida” “datos personales” soltera

Y alguien en busca de hombres:

site:gov.co filetype:pdf “hoja de vida” “datos personales” soltero

Y de esta manera encontrar una gran cantidad de posibles candidat@s como se muestra en la fig. 7:

Fig. 7 - Google dork para buscar solteras

Otra forma que podemos utilizar para mejorar nuestros resultados es utilizar términos que se repiten recurrentemente, no en el contenido de los documentos, sino en las direcciones web en donde se encuentran (Ver URL [enlace]). Por ejemplo, observe el siguiente resultado de búsqueda (fig. 8):

Fig. 8 - Resultado de búsqueda que muestra que en ese dominio existe un directorio llamado "hojas_de_vida"

Observe la parte resaltada en el cuadro rojo, esto nos muestra que en ese sitio web hay un directorio (o carpeta) con el nombre “hojas_de_vida”, que inmediatamente nos da una idea de cuál puede ser su contenido. Para aprovecharnos de este hecho podemos hacer uso del operador inurl, que sirve para decirle al buscador que solo nos presente resultados hagan parte de la URL del resultado de búsqueda encontrado, de esta manera utilizaríamos inurl:”hojas_de_vida”, restringiéndolo, así al nombre de dominio  que contiene el directorio. Observe los resultados de esta búsqueda en la Fig. 9.

Fig. 9 - resultados de búsqueda en un dominio específico utilizando el operador inurl

Algo que puede ocurrir es que el motor de búsqueda no encuentre ningún documento que cumpla nuestro criterio, esto puede ser consecuencia de que efectivamente no hay resultados que lo cumplan, que el buscador por alguna razón haya “bloqueado” esta búsqueda o que simplemente no haya adicionado a su base de datos información que se encuentre pública en Internet (no la ha encontrado). Por esta razón, es recomendable tener una segunda opinión de otro buscador, ya que este puede presentar resultados que no se presentaron en el inicial. Una opción que me parece muy interesante es Bing de Microsoft, que aunque a muchos les cueste (o duela) creerlo, puede presentar resultados que Google no encontró y ayudarnos a complementar la recolección de información. También está Yahoo o inclusive los mismos buscadores que tienen los sitios web que estamos analizando.

Por último, si tiene curiosidad de saber si su hoja de vida se encuentra en Internet y, para empeorar las cosas, usted alguna vez fue aspirante a algún cargo en una entidad del estado, puede buscarse muy fácilmente en Internet de la siguiente manera. Supongamos que sus datos aparecen de la siguiente manera en su hoja de vida:

Datos personales

Nombre: Johnny Ramone 
Cédula de ciudadanía: 53'764.955
Estado civil: casado
Fecha de Nacimiento: Octubre 8 de 1948
Dirección residencia: Calle 53 # 3 - 00

Entonces podría usar como criterio de búsqueda los siguientes Google dork:

Site:gov.co  "Johnny Ramone" "53'764.955"

O

+"Johnny Ramone" +"Octubre 8 de 1948" +"53'764.955"

La idea es generar combinaciones de términos como aparezcan literalmente en su hoja de vida y de esta manera podrá saber si se encuentra o no publicada. Le recomiendo realizar la misma búsqueda en varios motores, ya que como mencioné anteriormente los resultados pueden variar entre uno y otro.  Adicionalmente, que no se obtengan resultados no quiere decir que la información que buscamos no esté pública en Internet  es posible que lo que suceda es que esta aún no ha sido encontrada por los motores de búsqueda (aquí puede ser útil utilizar el buscador del sitio web de la página de la entidad) o que se necesite realizar manualmente algún procedimiento para alcanzarla (como inscribirse o autenticarse), sin embargo, aprendiendo a usar los operadores avanzados de los motores de búsqueda, seleccionando los términos adecuados y aprendiendo a entender la estructura y funcionamiento de un sitio web, podemos encontrar una enorme cantidad de información que no podríamos obtener utilizando criterios de búsqueda muy simples (como solamente escribiendo los términos que queremos buscar entre comillas).

Espero que este escrito brinde una visión de la problemática del manejo inadecuado de los datos sensibles de las personas por parte del estado colombiano (sin olvidar que las empresas privadas tampoco saldrían bien libradas); y que el mostrar cómo muchas entidades están violando la ley 1581 de 2012, sirva como un llamado de alerta a las personas para que le den mayor importancia a la protección de su información y sean conscientes de la magnitud del problema. 

Vivimos en una época en que las TIC nos permiten acceder y compartir trivialmente una cantidad de información que hace unos años era impensable,  haciendo que nuestro modo de vida este cambiando radicalmente. Por lo tanto, debemos ser realistas en que a pesar de todas las virtudes que se les puedan atribuir a las TIC también se están generando nuevos riesgos que no podemos ignorar, ni pretender que una ley o una aplicación de software los va a contrarrestar, la seguridad de nuestra información depende en gran medida del buen uso que le demos a la tecnología, de ser conscientes de quiénes tienen acceso a nuestros datos y cuando sea necesario exigir que se cumpla la ley, para de esta manera dificultar al máximo que esta caiga en las manos equivocadas.

Por último, y para que se pongan a llorar, utilicen el siguiente Google dork:

site:mindefensa.gov.co inurl:desmovilizados "hoja de vida"

Hasta pronto.