Capítulo 51 Análise qualitativa
51.2 Representação de texto
51.2.1 O que é tokenização?
Tokenização é o processo de dividir texto contínuo em unidades menores (tokens), como palavras, pontuação, subpalavras ou caracteres. O objetivo é criar uma representação discreta sobre a qual modelos podem calcular frequências, probabilidades e relações.REF?
É comum combinar tokenização com normalização (lowercase), remoção de stopwords, lematização/stemming e regras para números e pontuação.REF?
51.2.3 O que são n-gramas?
Um n-grama é uma sequência contígua de n tokens, tais como: 1-gramas (unigramas), 2-gramas (bigramas), 3-gramas (trigramas).REF?
Contagens de n-gramas aproximam dependências locais no texto e servem de base para DTM/TF-IDF, modelos de linguagem clássicos e detecção de coligações.REF?
O pacote tidytext406 fornece a função unnest_token para transformar um texto em um data frame com uma coluna para cada palavra.
O pacote tidytext406 fornece a função stop_words para remover palavras comuns que não agregam significado.
O pacote tidytext406 fornece a função get_sentiments para obter listas de palavras com sentimentos associados.
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,