class: title-slide, center, middle, inverse background-image: url(https://github.com/Observatorio-de-Redes/politicosentwitter/raw/main/ShinyApp/www/img_net/Animation_fdt.gif) background-position: center background-size: 150px 160px # Políticos en Twitter 🐦📦 ####[
@guadag12](https://twitter.com/guadag12) --- class: inverse, middle, center ## GUADA GONZALEZ <img src="https://github.com/guadag12/talk-cienciassoccomputacionales/raw/main/img/img-guada.png" width="15%" /> ### Politóloga & Data Scientist #### Coordinadora [GICP Observatorio de Redes](https://twitter.com/O_de_R) #### Investigadora [ILCSS](https://twitter.com/ilcss_umd) #### Profesora en [Laboratorio de Políticas Públicas](https://twitter.com/LABPoliticasUBA) --- class: middle, center ## Web 🇦🇷 <img src="https://github.com/Observatorio-de-Redes/politicosentwitter/raw/main/ShinyApp/www/shiny%20contest/img%20def.png" width="60%" /> ##### [www.politicosentwitter.com](www.politicosentwitter.com) --- class: middle, center ## PoliticxsentwitteR 🐦📦 ### R package <img src="https://github.com/guadag12/politicxsentwitteR/raw/main/man/figures/logo.png" width="25%" /> #### [Repositorio](https://github.com/guadag12/politicxsentwitteR) #### [Web Español](https://guadag12.github.io/politicxsentwitteR/index.html) --- class: middle, center ### ¿QUÉ ES LA CIENCIA DE DATOS? ![](https://ichi.pro/assets/images/max/724/1*km81hu0_UaMm1aTz3VHJog.png) --- ### ¿POR DÓNDE PUEDO ARRANCAR? * Recursos online: * [R4DS](https://es.r4ds.hadley.nz/) * [Cursera](https://www.coursera.org/) * [edx](https://www.edx.org/) * Laboratorio de Políticas Públicas en UBA: * [Web](http://labpoliticasuba.com/) * [Clases Online](https://github.com/labpoliticasuba) * [Twitter](https://twitter.com/LABPoliticasUBA) * Metodologia de análisis en Opinión Pública ([programa](http://cienciapolitica.sociales.uba.ar/wp-content/uploads/sites/6/2019/07/prog_met4op_Tomas_A_Olego.pdf)) * Cursos de la Dirección de Cultura en R * Laboratorio de Datos (Exactas UBA): * [materiales y clases](http://materias.df.uba.ar/lda2021c1/171-2/) * Comunidad: * [Rladies](https://twitter.com/RLadiesBA) * [R en Buenos Aires](https://twitter.com/renbaires) --- class: middle, center ### Text Mining ![](http://www.datascience.manchester.ac.uk/media/1739/nlp-tm-diagramtif.jpg?width=481&height=444) --- class: inverse, middle, center ### Tipos de datos --- #### Estructurados Están altamente organizados y formateados de tal manera que se pueden buscar fácilmente en bases de datos relacionales ```r library(politicxsentwitteR) data <- politicxsentwitteR::politicxs_data rmarkdown::paged_table(head(data, 3)) ``` <div data-pagedtable="false"> <script data-pagedtable-source type="application/json"> {"columns":[{"label":["user_id"],"name":[1],"type":["chr"],"align":["left"]},{"label":["screen_name"],"name":[2],"type":["chr"],"align":["left"]},{"label":["category"],"name":[3],"type":["chr"],"align":["left"]},{"label":["description"],"name":[4],"type":["chr"],"align":["left"]},{"label":["name"],"name":[5],"type":["chr"],"align":["left"]},{"label":["gender"],"name":[6],"type":["chr"],"align":["left"]},{"label":["followers_count"],"name":[7],"type":["dbl"],"align":["right"]},{"label":["profile_image_url"],"name":[8],"type":["chr"],"align":["left"]},{"label":["country"],"name":[9],"type":["chr"],"align":["left"]}],"data":[{"1":"1204088748645978112","2":"A_Carambia","3":"deputies","4":"Diputado Nacional por Santa Cruz-MoVeRe\\n\\n\\nPadre de Fran y Martu. Hincha de Boca","5":"Antonio Carambia","6":"M","7":"183","8":"http://pbs.twimg.com/profile_images/1204089585338343425/NHCnYYZD_normal.jpg","9":"ar"},{"1":"841757182257463296","2":"Adriana_Ruarte","3":"deputies","4":"Vecina de Deán Funes. Docente. Casada con Tato, madre de 3 hijos. Diputada Nacional por Córdoba @juntoscambioar <U+0001F1E6><U+0001F1F7>","5":"Adriana Ruarte","6":"F","7":"1206","8":"http://pbs.twimg.com/profile_images/1270010134681583618/pXIR_MZq_normal.jpg","9":"ar"},{"1":"1277698598860476416","2":"AgenciaAfi","3":"national executive","4":"Cuenta oficial de la Agencia Federal de Inteligencia - AFI.\\nPresidencia de la Nación.\\nMás información en https://t.co/lZ7fwPBQzo","5":"Agencia Federal de Inteligencia - AFI","6":"ND","7":"2508","8":"http://pbs.twimg.com/profile_images/1277698875684466691/REbhEZF-_normal.jpg","9":"ar"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}} </script> </div> --- #### No Estructurados No tienen un formato u organización predefinidos, lo que hace que sea mucho más difícil de recopilar, procesar y analizar. ```r library(politicxsentwitteR) #data_af <- get_timeline_data(screen.name = "alferdez") data_af <- read.csv("https://github.com/guadag12/talk-textmining-uba/raw/gh-pages/data/data_af.csv") rmarkdown::paged_table(head(data.frame(text =data_af[,"text"]), 3)) ``` <div data-pagedtable="false"> <script data-pagedtable-source type="application/json"> {"columns":[{"label":[""],"name":["_rn_"],"type":[""],"align":["left"]},{"label":["text"],"name":[1],"type":["chr"],"align":["left"]}],"data":[{"1":"Desatemos la esperanza. Vamos a volver para ser mejores. #EntreTodos https://t.co/Uoed2WF2jX","_rn_":"1"},{"1":"Para salir del laberinto al que vamos a entrar el diez de diciembre debemos trabajar todos, codo a codo, nadie sobra, todos hacen falta. https://t.co/Ddjx1gZJPw","_rn_":"2"},{"1":"Felicitaciones @bordet por tu merecidisimo triunfo. \\n\\nEl pueblo de Entre Ríos renovó su esperanza. Vamos Argentina.","_rn_":"3"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}} </script> </div> --- class: inverse, middle, center ## Más del 80% de la data al dia de hoy esta compuesta por data no estructurada o semi-estructurada. --- ### Dificultades de hoy </br> #### 1. Análisis escalables y eficientes </br> #### 2. Mejoras en multilenguajes </br> #### 3. Integración del conocimiento adquirido </br> #### 4. Ambiguedad --- class: middle, center ![](https://miro.medium.com/max/700/0*ewkxRItArykG27dU.png) --- class: inverse, middle, center ### Análisis de sentimiento y tópicos --- class: middle, center <img src="https://miro.medium.com/max/400/1*V9iViGtxOnBE3_Y8SzIJCg.jpeg" width="120%" /> --- ### Grado de participación del humano: </br> #### 1. Codificación a mano (100%) </br> #### 2. Supervisado </br> #### 3. Sin supervisión (0%) --- ### 4 Principios para el análisis de textos: </br> #### 1. Todos los modelos cuantitativos de lenguaje son malos .... Pero algunos son útiles </br> -- #### 2. Los métodos cuantitativos aumentan el poder de los humanos, no los reemplazan </br> -- #### 3. No hay UN método global ideal para analisis cuantitativo de textos </br> -- #### 4. Validar, Validar, Validar </br> ##### (Grimer & Stewart, 2013) --- class: middle, center ## Nota del [@O_de_R](https://twitter.com/O_de_R) ### Aborto en el Congreso <img src="https://miro.medium.com/max/624/1*j2ILXRAa92mVM2mA6ao4Xg.png" width="120%" /> #### [Nota completa](https://oderedes.medium.com/abortolegal-del-congreso-a-las-redes-ida-y-vuelta-6c4919d74040) --- class: inverse, middle, center # GRACIAS!🥰 </br> ## ESTEMOS EN CONTACTO! 🙌 👇 [
@guadag12](https://twitter.com/guadag12) [
@guadag12](http://github.com/guadag12) [
guadagonz12@gmail.com](guadagonz12@gmail.com)