Alumno: Franco Giordano
import pandas as pd
Consiste en un dataset de aproximadamente 71 mil encuestados.
# Importación del dataset
url1 = "https://docs.google.com/spreadsheets/d/e/2PACX-1vSJIHhvX0P1dCnfskv0EKQlYNt95BRPGta4-yu5kzlKPIly7Hg33_BiuJtzQ8mkNs4lLwqdjgTcmZIC/pub?gid=1513689152&single=true&output=csv"
df1 = pd.read_csv(url1)
display(df1)
Age | Sex | HighChol | CholCheck | BMI | Smoker | HeartDiseaseorAttack | PhysActivity | Fruits | Veggies | HvyAlcoholConsump | GenHlth | MentHlth | PhysHlth | DiffWalk | Stroke | HighBP | Diabetes | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 4 | 1 | 0 | 1 | 26 | 0 | 0 | 1 | 0 | 1 | 0 | 3 | 5 | 30 | 0 | 0 | 1 | 0 |
1 | 12 | 1 | 1 | 1 | 26 | 1 | 0 | 0 | 1 | 0 | 0 | 3 | 0 | 0 | 0 | 1 | 1 | 0 |
2 | 13 | 1 | 0 | 1 | 26 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 0 | 10 | 0 | 0 | 0 | 0 |
3 | 11 | 1 | 1 | 1 | 28 | 1 | 0 | 1 | 1 | 1 | 0 | 3 | 0 | 3 | 0 | 0 | 1 | 0 |
4 | 8 | 0 | 0 | 1 | 29 | 1 | 0 | 1 | 1 | 1 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
70687 | 6 | 0 | 1 | 1 | 37 | 0 | 0 | 0 | 0 | 1 | 0 | 4 | 0 | 0 | 0 | 0 | 0 | 1 |
70688 | 10 | 1 | 1 | 1 | 29 | 1 | 1 | 0 | 1 | 1 | 0 | 2 | 0 | 0 | 1 | 0 | 0 | 1 |
70689 | 13 | 0 | 1 | 1 | 25 | 0 | 1 | 0 | 1 | 0 | 0 | 5 | 15 | 0 | 1 | 0 | 1 | 1 |
70690 | 11 | 0 | 1 | 1 | 18 | 0 | 0 | 0 | 0 | 0 | 0 | 4 | 0 | 0 | 1 | 0 | 1 | 1 |
70691 | 9 | 0 | 1 | 1 | 25 | 0 | 1 | 1 | 1 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 1 | 1 |
70692 rows × 18 columns
Variables significativas:
Variable | Descripción |
---|---|
Age | Edad divida en 13 categorías (1 = 18-24, 9 = 60-64...) |
Sex | Sexo |
HighChol | Posee colesterol alto |
CholCheck | Se hizo un chequeo de colesterol en los últimos 5 años |
BMI | Índice de masa corporal |
Smoker | Ha fumado más de 100 cigarrillos en su vida |
HeartDiseaseorAttack | Sufre de CHD o MI |
PhysActivity | Realizó actividad física en los últimos 30 días |
Fruits | Consume frutas una o más veces por día |
Veggies | Consume vegetales una o más veces por día |
HvyAlcoholConsump | Bebe más de 14 tragos en la semana (o 7 para mujeres) |
GenHlth | En la escala del 1 al 5 (siendo 1 excelente y 5 muy pobre) que tan bien considera su salud1 |
MentHlth | Días con salud mental pobre (escala 1-30 días) |
PhysHlth | Sufrió alguna lesión en los últimos 30 días (escala 1-30 días) |
DiffWalk | Posee dificultad caminando o subiendo escaleras |
Diabetes | Sufre de diabetes |
HighBP | Sufre de presión de sangre alta |
Stroke | Sufrió un ACV |
El dataset contiene información de pacientes con cáncer de pulmón, de tal forma que se pueda utilizar dicha información para predecir si un paciente puede desarrollar tal enfermedad.
# Importación del dataset
url2 = "https://docs.google.com/spreadsheets/d/e/2PACX-1vR7nK1QU1CEf2Trka3jHG-aRzZ4psWdf7tijRbGNErwPJHIfXraTbn8XrX9M2XqDJUs4vzsGsloo4T3/pub?gid=1131270073&single=true&output=csv"
df2 = pd.read_csv(url2)
display(df2)
index | Patient Id | Age | Gender | Air Pollution | Alcohol use | Dust Allergy | OccuPational Hazards | Genetic Risk | chronic Lung Disease | ... | Fatigue | Weight Loss | Shortness of Breath | Wheezing | Swallowing Difficulty | Clubbing of Finger Nails | Frequent Cold | Dry Cough | Snoring | Level | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | P1 | 33 | 1 | 2 | 4 | 5 | 4 | 3 | 2 | ... | 3 | 4 | 2 | 2 | 3 | 1 | 2 | 3 | 4 | Low |
1 | 1 | P10 | 17 | 1 | 3 | 1 | 5 | 3 | 4 | 2 | ... | 1 | 3 | 7 | 8 | 6 | 2 | 1 | 7 | 2 | Medium |
2 | 2 | P100 | 35 | 1 | 4 | 5 | 6 | 5 | 5 | 4 | ... | 8 | 7 | 9 | 2 | 1 | 4 | 6 | 7 | 2 | High |
3 | 3 | P1000 | 37 | 1 | 7 | 7 | 7 | 7 | 6 | 7 | ... | 4 | 2 | 3 | 1 | 4 | 5 | 6 | 7 | 5 | High |
4 | 4 | P101 | 46 | 1 | 6 | 8 | 7 | 7 | 7 | 6 | ... | 3 | 2 | 4 | 1 | 4 | 2 | 4 | 2 | 3 | High |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
995 | 995 | P995 | 44 | 1 | 6 | 7 | 7 | 7 | 7 | 6 | ... | 5 | 3 | 2 | 7 | 8 | 2 | 4 | 5 | 3 | High |
996 | 996 | P996 | 37 | 2 | 6 | 8 | 7 | 7 | 7 | 6 | ... | 9 | 6 | 5 | 7 | 2 | 4 | 3 | 1 | 4 | High |
997 | 997 | P997 | 25 | 2 | 4 | 5 | 6 | 5 | 5 | 4 | ... | 8 | 7 | 9 | 2 | 1 | 4 | 6 | 7 | 2 | High |
998 | 998 | P998 | 18 | 2 | 6 | 8 | 7 | 7 | 7 | 6 | ... | 3 | 2 | 4 | 1 | 4 | 2 | 4 | 2 | 3 | High |
999 | 999 | P999 | 47 | 1 | 6 | 5 | 6 | 5 | 5 | 4 | ... | 8 | 7 | 9 | 2 | 1 | 4 | 6 | 7 | 2 | High |
1000 rows × 26 columns
Variables significativas:
Variable | Descripción |
---|---|
Age | Edad del paciente |
Gender | Género del paciente |
Air Pollution | Nivel de exposición de aire contaminado |
Alcohol use | Nivel de uso de alcohol |
Dust Allergy | Nivel de alergia al polvo |
OccuPational Hazards | Nivel de riesgo laboral |
Genetic Risk | Nivel de riesgo genético |
chronic Lung Disease | Nivel de enfermedades de pulmón crónicas |
Balanced Diet | Nivel de dieta balanceada del paciente |
Obesity | Nivel de obesidad |
Smoking | Nivel de cuanto fuma el paciente |
Passive Smoker | Nivel de cuanto fuma de forma pasiva |
Chest Pain | Nivel de dolor de dolor de pecho |
Coughing of Blood | Nivel de tos de sangre |
Fatigue | Nivel de fatiga |
Weight Loss | Nivel de pérdida de peso |
Shortness of Breath | Nivel de dificultad para respirar |
Wheezing | Nivel de jadeo |
Swallowing Difficulty | Nivel de dificultad para tragar |
Clubbing of Finger Nails | Nivel de uñas golpeadas |
El dataset busca predecir si el tenedor de la póliza realizará un reclamo en los siguientes 6 meses o no.
# Importación del dataset
url3 = "https://docs.google.com/spreadsheets/d/e/2PACX-1vSXSR4-vzprG_Hv2Ab6JUSoAa2dO9idHpd0nUHg0CRBUQQccCqrjb3h4mpxj5VM-E0iWysCyH7-DwaQ/pub?gid=975569180&single=true&output=csv"
df3 = pd.read_csv(url3)
display(df3)
policy_id | policy_tenure | age_of_car | age_of_policyholder | area_cluster | population_density | make | segment | model | fuel_type | ... | is_brake_assist | is_power_door_locks | is_central_locking | is_power_steering | is_driver_seat_height_adjustable | is_day_night_rear_view_mirror | is_ecw | is_speed_alert | ncap_rating | is_claim | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ID00001 | 0.515874 | 0.05 | 0.644231 | C1 | 4990 | 1 | A | M1 | CNG | ... | No | No | No | Yes | No | No | No | Yes | 0 | 0 |
1 | ID00002 | 0.672619 | 0.02 | 0.375000 | C2 | 27003 | 1 | A | M1 | CNG | ... | No | No | No | Yes | No | No | No | Yes | 0 | 0 |
2 | ID00003 | 0.841110 | 0.02 | 0.384615 | C3 | 4076 | 1 | A | M1 | CNG | ... | No | No | No | Yes | No | No | No | Yes | 0 | 0 |
3 | ID00004 | 0.900277 | 0.11 | 0.432692 | C4 | 21622 | 1 | C1 | M2 | Petrol | ... | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | 2 | 0 |
4 | ID00005 | 0.596403 | 0.11 | 0.634615 | C5 | 34738 | 2 | A | M3 | Petrol | ... | No | Yes | Yes | Yes | No | Yes | Yes | Yes | 2 | 0 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
58587 | ID58588 | 0.355089 | 0.13 | 0.644231 | C8 | 8794 | 2 | A | M3 | Petrol | ... | No | Yes | Yes | Yes | No | Yes | Yes | Yes | 2 | 0 |
58588 | ID58589 | 1.199642 | 0.02 | 0.519231 | C14 | 7788 | 1 | A | M1 | CNG | ... | No | No | No | Yes | No | No | No | Yes | 0 | 0 |
58589 | ID58590 | 1.162273 | 0.05 | 0.451923 | C5 | 34738 | 1 | A | M1 | CNG | ... | No | No | No | Yes | No | No | No | Yes | 0 | 0 |
58590 | ID58591 | 1.236307 | 0.14 | 0.557692 | C8 | 8794 | 1 | B2 | M6 | Petrol | ... | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | 2 | 0 |
58591 | ID58592 | 0.124429 | 0.02 | 0.442308 | C8 | 8794 | 3 | C2 | M4 | Diesel | ... | Yes | Yes | Yes | Yes | Yes | No | Yes | Yes | 3 | 0 |
58592 rows × 44 columns
Variables significativas:
Variable | Descripción |
---|---|
age_of_car | Año del auto normalizado en años |
age_of_policyholder | Año normalizado del tenedor de la poliza |
population_density | Densidad de población de la ciudad del tenedor |
make | Empresa manufactora del auto |
fuel_type | Tipo de combustible usado en el auto |
engine_type | Tipo de motor usado en el auto |
cylinder | Cantidad de cilindros en el motor del auto |
transmission_type | Tipo de transmisión |
turning_radius | El espacio que necesita el vehículo para realizar un cierto giro (en metros) |
length | Longitud del auto (milimetros) |
width | Ancho del auto (milimetros) |
height | Alto del auto (milimetros) |
is_front_fog_lights | Posee luces delanteras para niebla funcionales |
is_speed_alert | Posee un sistema de alerta de velocidad funcional |
ncap_rating | Rating dado por el NCAP (hasta 5) |
is_claim | Booleano que indica si el tenedor ha hecho un reclamo en los últimos 6 meses |
Explicación de todas las variables: