Ook Alibaba steekt ChatGPT naar de kroon met nieuw AI-model
Na de verrassend gevorderde AI van DeepSeek komt ook Alibaba met een nieuw model dat beweert vergelijkbaar of beter te presteren dan ChatGPT 4o en Claude 3.5 Sonnet. Het gaat om Qwen2.5-Max, dat volgens Alibaba is getraind op twintig biljoen tokens.
Het kan momenteel zowel als een chatbot (na registratie) worden gebruikt als in Alibaba Cloud waar je API keys kan maken die ook OpenAI-API compatibel zijn volgens Alibaba. Een open source model is niet beschikbaar. Alibaba heeft Qwen2.5-Max door enkele benchmarks gejaagd en claimt dat het daarbij telkens beter scoort dan DeepSeek-V3, Llama-3.1-405b-Inst, GPT-4o-0806 en CLaude-3.5-Sonnet-1022.
Wel hallucinaties, geen censuur
Een korte praktijktest leert echter dat de chatbot nog erg vaak hallucinaties toont. Zo spreekt Qwen Chat desgewenst ook Nederlands of Frans, maar vragen we naar wat het weet over enkele redactieleden, dan krijgen we een tekst waar geen enkel feit van klopt. Zo zou de hoofdredacteur van Data News onder meer bijklussen als presentator van De Mol en De Slimste Mens Ter Wereld.
Vragen we verder naar enkele lokale beroemdheden dan duiken daar ook talloze onwaarheden in op. Vragen we naar meer internationaal bekende mensen, dan lijkt het antwoord correcter.
Op het eerste oog geen censuur
Opmerkelijk: waar DeepSeek deze week al snel de kritiek kreeg dat het onderwerpen censureert wanneer die te gevoelig liggen in China, lijkt Alibaba dat niet te doen. Vragen we naar het Tiananmenplein, dan vermeldt Alibaba dat daar een studentenprotest gewelddadig is neergeslagen.
Ook een paar andere Chinese gevoeligheden worden gewoon meegedeeld, zelfs met de vermelding dat de Chinese overheid de zaken censureert. Of de chatbot ook binnen China zulke antwoorden geeft is niet bekend. Daar tegenover staat dan weer wel dat vragen naar seksuele inhoud of hoe je een brandbom maakt, uit de weg worden gegaan.
In samenwerking met Data News