Curso de introducción a la programación con Python

Autor: Luis Fernando Apáez Álvarez

Clase 1: DataFrames (parte I)

Pandas es una biblioteca de código abierto que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento, donde el DataFrame es una de sus más importantes estructuras de datos. Los DataFrames poseen una idea similar a lo que son las hojas de cálculo en Excel o a una tabla en SQL.

Creando un DataFrame a partir de un diccionario

Podemos crear nuestro primer DataFrame utilizando un diccionario como base para nuestros datos, para ello utilizaremos pd.DataFrame() que recive como parámetro el nombre del diccionario en cuestión. Por ejemplo

donde de manera automática se crea una primer columna con un índece por defecto de la filas. Podemos cambiarlo utilizando

DataFrames a partir de datos externos

Por lo general, cuando se trabaja con DataFrames suelen tener cantidades grandes de datos, por lo que no se crean éstos de manera manual, siendo lo usual importar datos de otros lados y crear los DataFrames a partir de ellos. Por ejemplo, podemos crear un DataFrame extrayendo datos de un archivo csv de un sitio web como sigue

y notemos como Python al final de la salida nos indica que hay 35549 filas en dicho DataFrame.

Consideremos otro ejemplo, en este caso crearemos un DataFrame a partir de tres listas como sigue

podemos modificar la columna de los índices dados por defecto

Cuando creamos un DataFrame utilizando datos externos, por defecto se creará la columna de índices como en el ejemplo anterior, sin embargo, en muchos casos la información externa posee su propia primer columna por lo que la creada por defecto muchas veces está de más. Para especificar que tomaremos como primer columna la columna de los datos externos agregamos index_col = 0 al parámetro donde "leemos" la información externa y creamos el DataFrame. Por ejemplo

Socialmedia.PNG