Capítulo 42 Representações


42.1 Representações de dados e extração de atributos


42.1.1 Como representar texto como vetores?


42.1.2 O que é one-hot, multi-hot e count encoding?

  • One-hot encoding: cria uma coluna binária para cada categoria de uma variável categórica, indicando a presença (1) ou ausência (0) da categoria em cada observação.REF?

  • Multi-hot encoding: semelhante ao one-hot, mas permite que múltiplas categorias sejam representadas simultaneamente em uma única observação, útil para variáveis com múltiplas seleções.REF?

  • Count encoding: substitui categorias por contagens de sua ocorrência no conjunto de dados, capturando a frequência relativa de cada categoria.REF?


Tabela 42.1: Exemplo de codificação one-hot, multi-hot e count encoding para representação de texto.
Termo avalia cuidado equipe executa final planeja projeto revisa tarefas
equipe 0 0 1 0 0 0 0 0 0
planeja 0 0 0 0 0 1 0 0 0
projeto 0 0 0 0 0 0 1 0 0
cuidado 0 1 0 0 0 0 0 0 0
equipe 0 0 1 0 0 0 0 0 0
executa 0 0 0 1 0 0 0 0 0
tarefas 0 0 0 0 0 0 0 0 1
projeto 0 0 0 0 0 0 1 0 0
revisa 0 0 0 0 0 0 0 1 0
tarefas 0 0 0 0 0 0 0 0 1
avalia 1 0 0 0 0 0 0 0 0
projeto 0 0 0 0 0 0 1 0 0
final 0 0 0 0 1 0 0 0 0
One-hot encoding 1 1 1 1 1 1 1 1 1
Multi-hot encoding 1 1 1 1 1 1 1 1 1
Count encoding 1 1 2 1 1 1 3 1 2
Frase original:
A equipe planeja o projeto com cuidado, a equipe executa as tarefas do projeto, revisa as tarefas e avalia o projeto final.



Citar como:
Ferreira, Arthur de Sá. Ciência com R: Perguntas e respostas para pesquisadores e analistas de dados. Rio de Janeiro: 1a edição,