Capítulo 29 Análise qualitativa

29.1 Análise qualitativa

29.2 Representação de texto

29.2.1 O que é tokenização?

Tokenização é o processo de dividir texto contínuo em unidades menores (tokens), como palavras, pontuação, subpalavras ou caracteres. O objetivo é criar uma representação discreta sobre a qual modelos podem calcular frequências, probabilidades e relações.³¹⁶
É comum combinar tokenização com normalização (lowercase), remoção de stopwords, lematização/stemming e regras para números e pontuação.³¹⁶

29.2.2 Modelagem com N-gramas

29.2.3 O que são n-gramas?

N-gramas são sequências contíguas de tokens utilizadas para modelar dependências locais em textos.^317,318
Modelos estatísticos baseados em n-gramas estimam a probabilidade de ocorrência de uma palavra a partir das palavras precedentes, sendo amplamente empregados em tarefas de processamento de linguagem natural e reconhecimento de fala.³¹⁸

Tabela 29.1: Tokenização, remoção de stopwords e geração de n-gramas
Etapa	Resultado
Texto original	A análise qualitativa utiliza tokenização de texto.
Tokens	a \| análise \| qualitativa \| utiliza \| tokenização \| de \| texto
Sem stopwords	análise \| qualitativa \| utiliza \| tokenização \| de \| texto
Bigramas	análise qualitativa; qualitativa utiliza; utiliza tokenização; tokenização de; de texto; texto NA
Trigramas	análise qualitativa utiliza; qualitativa utiliza tokenização; utiliza tokenização de; tokenização de texto

O pacote tidytext³¹⁹ fornece a função unnest_token para transformar um texto em um data frame com uma coluna para cada palavra.

O pacote tidytext³¹⁹ fornece a função stop_words para remover palavras comuns que não agregam significado.

O pacote tidytext³¹⁹ fornece a função get_sentiments para obter listas de palavras com sentimentos associados.

Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,

Referências

316.

Webster JJ, Kit C. Tokenization as the initial phase in NLP. Em: Proceedings of the 14th Conference on Computational Linguistics - Volume 4. COLING ’92. USA: Association for Computational Linguistics; 1992:1106–1110. doi:10.3115/992424.992434

317.

Brown PF, deSouza PV, Mercer RL, Pietra VJD, Lai JC. Class-based n-gram models of natural language. Comput Linguist. 1992;18(4):467–479.

318.

Jardino M. Multilingual stochastic n-gram class language models. 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. 1996;1:161–163. doi:10.1109/icassp.1996.540315

319.

Silge J, Robinson D. tidytext: Text Mining and Analysis Using Tidy Data Principles in R. The Journal of Open Source Software. 2016;1. doi:10.21105/joss.00037