Capítulo 29 Análise qualitativa


29.1 Análise qualitativa


29.2 Representação de texto


29.2.1 O que é tokenização?

  • Tokenização é o processo de dividir texto contínuo em unidades menores (tokens), como palavras, pontuação, subpalavras ou caracteres. O objetivo é criar uma representação discreta sobre a qual modelos podem calcular frequências, probabilidades e relações.316

  • É comum combinar tokenização com normalização (lowercase), remoção de stopwords, lematização/stemming e regras para números e pontuação.316


29.2.2 Modelagem com N-gramas


29.2.3 O que são n-gramas?

  • N-gramas são sequências contíguas de tokens utilizadas para modelar dependências locais em textos.317,318

  • Modelos estatísticos baseados em n-gramas estimam a probabilidade de ocorrência de uma palavra a partir das palavras precedentes, sendo amplamente empregados em tarefas de processamento de linguagem natural e reconhecimento de fala.318


Tabela 29.1: Tokenização, remoção de stopwords e geração de n-gramas
Etapa Resultado
Texto original A análise qualitativa utiliza tokenização de texto.
Tokens a | análise | qualitativa | utiliza | tokenização | de | texto
Sem stopwords análise | qualitativa | utiliza | tokenização | de | texto
Bigramas análise qualitativa; qualitativa utiliza; utiliza tokenização; tokenização de; de texto; texto NA
Trigramas análise qualitativa utiliza; qualitativa utiliza tokenização; utiliza tokenização de; tokenização de texto






Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,


Referências

316.
Webster JJ, Kit C. Tokenization as the initial phase in NLP. Em: Proceedings of the 14th Conference on Computational Linguistics - Volume 4. COLING ’92. USA: Association for Computational Linguistics; 1992:1106–1110. doi:10.3115/992424.992434
317.
Brown PF, deSouza PV, Mercer RL, Pietra VJD, Lai JC. Class-based n-gram models of natural language. Comput Linguist. 1992;18(4):467–479.
318.
Jardino M. Multilingual stochastic n-gram class language models. 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. 1996;1:161–163. doi:10.1109/icassp.1996.540315
319.
Silge J, Robinson D. tidytext: Text Mining and Analysis Using Tidy Data Principles in R. The Journal of Open Source Software. 2016;1. doi:10.21105/joss.00037