Capítulo 29 Análise qualitativa
29.2 Representação de texto
29.2.1 O que é tokenização?
Tokenização é o processo de dividir texto contínuo em unidades menores (tokens), como palavras, pontuação, subpalavras ou caracteres. O objetivo é criar uma representação discreta sobre a qual modelos podem calcular frequências, probabilidades e relações.316
É comum combinar tokenização com normalização (lowercase), remoção de stopwords, lematização/stemming e regras para números e pontuação.316
29.2.3 O que são n-gramas?
N-gramas são sequências contíguas de tokens utilizadas para modelar dependências locais em textos.317,318
Modelos estatísticos baseados em n-gramas estimam a probabilidade de ocorrência de uma palavra a partir das palavras precedentes, sendo amplamente empregados em tarefas de processamento de linguagem natural e reconhecimento de fala.318
| Etapa | Resultado |
|---|---|
| Texto original | A análise qualitativa utiliza tokenização de texto. |
| Tokens | a | análise | qualitativa | utiliza | tokenização | de | texto |
| Sem stopwords | análise | qualitativa | utiliza | tokenização | de | texto |
| Bigramas | análise qualitativa; qualitativa utiliza; utiliza tokenização; tokenização de; de texto; texto NA |
| Trigramas | análise qualitativa utiliza; qualitativa utiliza tokenização; utiliza tokenização de; tokenização de texto |
O pacote tidytext319 fornece a função unnest_token para transformar um texto em um data frame com uma coluna para cada palavra.
O pacote tidytext319 fornece a função stop_words para remover palavras comuns que não agregam significado.
O pacote tidytext319 fornece a função get_sentiments para obter listas de palavras com sentimentos associados.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,