Capítulo 51 Análise qualitativa


51.1 Análise qualitativa


51.1.1 O que é análise qualitativa?


51.2 Representação de texto


51.2.1 O que é tokenização?

  • Tokenização é o processo de dividir texto contínuo em unidades menores (tokens), como palavras, pontuação, subpalavras ou caracteres. O objetivo é criar uma representação discreta sobre a qual modelos podem calcular frequências, probabilidades e relações.REF?

  • É comum combinar tokenização com normalização (lowercase), remoção de stopwords, lematização/stemming e regras para números e pontuação.REF?


51.2.2 Modelagem com N-gramas


51.2.3 O que são n-gramas?

  • Um n-grama é uma sequência contígua de n tokens, tais como: 1-gramas (unigramas), 2-gramas (bigramas), 3-gramas (trigramas).REF?

  • Contagens de n-gramas aproximam dependências locais no texto e servem de base para DTM/TF-IDF, modelos de linguagem clássicos e detecção de coligações.REF?






Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

406.
Silge J, Robinson D. tidytext: Text Mining and Analysis Using Tidy Data Principles in R. The Journal of Open Source Software. 2016;1. doi:10.21105/joss.00037