Kan k-medel användas för kategorisering av textdata?

Innehållsförteckning:

Kan k-medel användas för kategorisering av textdata?
Kan k-medel användas för kategorisering av textdata?

Video: Kan k-medel användas för kategorisering av textdata?

Video: Kan k-medel användas för kategorisering av textdata?
Video: StatQuest: K-means clustering 2024, November
Anonim

K-means är klassisk algoritm för dataklustring i textutvinning, men den används sällan för val av funktioner. … Vi använder metoden k-means för att fånga flera klustercentroider för varje klass och väljer sedan högfrekventa ord i centroider som textfunktioner för kategorisering.

Fungerar k-means med kategorisk data?

K-Means algoritmen är inte tillämplig på kategoridata, eftersom kategoriska variabler är diskreta och inte har något naturligt ursprung. Så att beräkna euklidiskt avstånd för till exempel rymden är inte meningsfullt.

Kan k-betyder användas för textkluster?

K-betyder klustring är en typ av oövervakad inlärningsmetod, som används när vi inte har märkta data som i vårt fall, vi har omärkta data (betyder, utan definierade kategorier eller grupper). Målet med denna algoritm är att hitta grupper i data, medan nr. av grupper representeras av variabeln K.

Kan vi använda k-medel för klassificering?

KMeans är en klustringsalgoritm som delar upp observationer i k kluster. Eftersom vi kan diktera mängden kluster kan den enkelt användas i klassificering där vi delar in data i kluster som kan vara lika med eller fler än antalet klasser.

Vilken klustringsalgoritm är bäst för textdata?

för klustring av textvektorer kan du använda hierarkiska klustringsalgoritmer som HDBSCAN som också tar hänsyn till densiteten. i HDBSCAN behöver du inte tilldela antalet kluster som i k-medel och det är mer robust mestadels i bullriga data.

Rekommenderad: