|
Hoy, anunciamos que el modelo PixTral grande 25.02 ahora está disponible en Amazon Bedrock como una oferta totalmente administrada y sin servidor. AWS es el primer proveedor de nube importante en entregar PixTral grande como un modelo sin servidor totalmente administrado.
Trabajar con grandes modelos de base (FMS) a menudo requiere una planificación significativa de la infraestructura, experiencia especializada y optimización continua para manejar las demandas computacionales de manera efectiva. Muchos clientes se encuentran administrando entornos complejos o haciendo compensaciones entre el rendimiento y el costo al implementar estos modelos sofisticados.
El modelo pixtral grande, desarrollado por AI Mistralrepresenta su primer modelo multimodal que combina capacidades de visión avanzadas con una poderosa comprensión del lenguaje. Una ventana de contexto de 128k lo hace ideal para tareas complejas de razonamiento visual. El modelo ofrece un rendimiento excepcional en puntos de referencia clave que incluyen Mathvista, Docvqay VQAV2demostrando su efectividad en el análisis de documentos, la interpretación del gráfico y la comprensión de la imagen natural.
Uno de los aspectos más poderosos de Pixtral Large es su capacidad multilingüe. El modelo apoya a docenas de idiomas, incluidos inglés, francés, alemán, español, italiano, chino, japonés, coreano, portugués, holandés y polaco, lo que lo hace accesible para equipos y aplicaciones globales. También está entrenado en más de 80 lenguajes de programación, incluidos Python, Java, C, C ++, JavaScript, Bash, Swift y Fortran, proporcionando capacidades de generación e interpretación de código robustas.
Los desarrolladores apreciarán el diseño centrado en el agente del modelo con llamadas de función incorporada y formateo de salida JSON, lo que simplifica la integración con los sistemas existentes. Su sólido adherencia del sistema mejora la confiabilidad cuando se trabaja con aplicaciones de generación aumentada (RAG) de recuperación y grandes escenarios de contexto.
Con Pixtral grande en Amazon Bedrock, ahora puede acceder a este modelo avanzado sin tener que provisar o administrar ninguna infraestructura. El enfoque sin servidor le permite escalar el uso en función de la demanda real sin compromisos iniciales o planificación de capacidad. Paga solo por lo que usa, sin recursos inactivos.
Inferencia de región cruzada
Pixtral Large ahora está disponible en el lecho de roca de Amazon en múltiples regiones de AWS a través de la inferencia transregional.
Con la inferencia de región cruzada de roca madre de Amazon, puede acceder a una sola FM en múltiples regiones geográficas mientras mantiene una alta disponibilidad y baja latencia para aplicaciones globales. Por ejemplo, cuando se implementa un modelo en las regiones europeas y estadounidenses, puede acceder a él a través de puntos finales de API específicos de la región utilizando prefijos distintos: eu.model-id
para regiones europeas y us.model-id
Para las regiones estadounidenses. Este enfoque permite a Amazon Bedrock en ruta de las solicitudes de inferencia al punto final geográficamente más cercano, reduciendo la latencia mientras ayuda a cumplir con el cumplimiento regulatorio al mantener el procesamiento de datos dentro de los límites geográficos deseados. El sistema maneja automáticamente el enrutamiento del tráfico y el equilibrio de carga en estas implementaciones regionales, proporcionando una escalabilidad y redundancia perfecta sin requerir que realice un seguimiento de las regiones individuales donde el modelo realmente se implementa.
Véalo en acción
Como defensor del desarrollador, estoy constantemente explorando cómo nuestras capacidades más recientes pueden resolver problemas reales. Recientemente, tuve una oportunidad perfecta para probar las nuevas capacidades multimodales en la API Converse de Amazon Bedrock cuando mi hija pidió ayuda con su preparación para el examen de física.
El fin de semana pasado, mi mesa de cocina estaba cubierta de exámenes de práctica llenos de diagramas complejos, vectores de fuerza y ecuaciones. Mi hija estaba luchando por conceptualizar cómo abordar estos problemas. Fue entonces cuando me di cuenta de que este era el caso de uso perfecto para las capacidades multimodales que acabamos de lanzar. Retiré fotos de una hoja de problemas particularmente desafiante que contenía varios gráficos y notación matemática, luego utilicé la API Converse para crear una aplicación simple que podría analizar las imágenes. Juntos, subimos los materiales del examen de física y le pedimos al modelo que explicara el enfoque de la solución.
Lo que sucedió después nos impresionó a los dos: el modelo interpretó los diagramas, reconoció el idioma francés y la notación matemática, y proporcionó una explicación paso a paso de cómo resolver cada problema. Al hacer preguntas de seguimiento sobre conceptos específicos, el modelo mantuvo el contexto en toda nuestra conversación, creando una experiencia de tutoría que se sintió notablemente natural.
# Effet Doppler avec une Source Sonore en Rotation
## Analyse du problème
Ce problème concerne l'effet Doppler produit par une source sonore en rotation. Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.
## Concepts clés
L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur. La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.
La formule de l'effet Doppler est:
- Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$
- Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$
## Solution étape par étape
### Étape 1: Analyser le mouvement de la source
La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation. Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:
- Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)
- Position b: La source s'éloigne du microphone (vitesse radiale positive)
- Position c: La source se rapproche du microphone (vitesse radiale négative)
### Étape 2: Déterminer l'effet sur les fréquences perçues
- À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz
- À la position b: La source s'éloigne, donc $f_b f_{source}$, donc $f_c > 1500$ Hz
### Étape 3: Comparer les fréquences
D'après notre analyse:
- $f_a = 1500$ Hz
- $f_b 1500$ Hz
Donc: $f_c > f_a > f_b$
## Conclusion
La proposition correcte est: $f_c > f_a > f_b$
Cette réponse correspond à la troisième proposition dans l'énoncé. Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b).
El modelo utiliza el lenguaje de la pregunta para responder. Después de un análisis reflexivo, dice que la respuesta correcta es F_C> F_A> F_B (¡y es correcto!)
La belleza de esta interacción fue cuán sin problemas la API contraria manejó las entradas multimodales. Como constructor, no necesitaba preocuparme por la complejidad de procesar imágenes junto con el texto: la API manejó que la complejidad y las respuestas estructuradas devueltas que mi aplicación simple podría presentar directamente a mi hija.
Aquí está el código que escribí. Utilicé el lenguaje de programación Swift, solo para mostrar que Python no es la única opción que tiene .
private let modelId = "us.mistral.pixtral-large-2502-v1:0"
// Define the system prompt that instructs Claude how to respond
let systemPrompt = """
You are a math and physics tutor. Your task is to:
1. Read and understand the math or physics problem in the image
2. Provide a clear, step-by-step solution to the problem
3. Briefly explain any relevant concepts used in solving the problem
4. Be precise and accurate in your calculations
5. Use mathematical notation when appropriate
Format your response with clear section headings and numbered steps.
"""
let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)
// Create the user message with text prompt and image
let userPrompt = "Please solve this math or physics problem. Show all steps and explain the concepts involved."
let prompt: BedrockRuntimeClientTypes.ContentBlock = .text(userPrompt)
let image: BedrockRuntimeClientTypes.ContentBlock = .image(.init(format: .jpeg, source: .bytes(finalImageData)))
// Create the user message with both text and image content
let userMessage = BedrockRuntimeClientTypes.Message(
content: [prompt, image],
role: .user
)
// Initialize the messages array with the user message
var messages: [BedrockRuntimeClientTypes.Message] = []
messages.append(userMessage)
// Configure the inference parameters
let inferenceConfig: BedrockRuntimeClientTypes.InferenceConfiguration = .init(maxTokens: 4096, temperature: 0.0)
// Create the input for the Converse API with streaming
let input = ConverseStreamInput(inferenceConfig: inferenceConfig, messages: messages, modelId: modelId, system: [system])
// Make the streaming request
do {
// Process the stream
let response = try await bedrockClient.converseStream(input: input)
// Iterate through the stream events
for try await event in stream {
switch event {
case .messagestart:
print("AI-assistant started to stream")
case let .contentblockdelta(deltaEvent):
// Handle text content as it arrives
if case let .text(text) = deltaEvent.delta {
DispatchQueue.main.async {
self.streamedResponse += text
}
}
case .messagestop:
print("Stream ended")
// Create a complete assistant message from the streamed response
let assistantMessage = BedrockRuntimeClientTypes.Message(
content: [.text(self.streamedResponse)],
role: .assistant
)
messages.append(assistantMessage)
default:
break
}
}
Y el resultado en la aplicación es impresionante.
Cuando su examen llegó, se sintió segura y preparada, y tenía un ejemplo convincente del mundo real de cómo nuestras capacidades multimodales en el rock de Amazon pueden crear experiencias significativas para los usuarios.
Empiece hoy
El nuevo modelo está disponible a través de estos puntos finales de API regionales: US East (Ohio, N. Virginia), US West (Oregon) y Europa (Frankfurt, Irlanda, París, Estocolmo). Esta disponibilidad regional lo ayuda a cumplir con los requisitos de residencia de datos al tiempo que minimiza la latencia.
Puede comenzar a usar el modelo a través de la consola de administración de AWS o programáticamente a través de la interfaz de línea de comandos de AWS (AWS CLI) y AWS SDK usando el ID de modelo mistral.pixtral-large-2502-v1:0
.
Este lanzamiento representa un paso importante para hacer que la IA multimodal avanzada sea accesible para desarrolladores y organizaciones de todos los tamaños. Al combinar el modelo de vanguardia de Mistral AI con infraestructura sin servidor AWS, ahora puede concentrarse en crear aplicaciones innovadoras sin preocuparse por la complejidad subyacente.
Visite hoy la consola Bedrock de Amazon para comenzar a experimentar con Pixtral grande 25.02 y descubra cómo puede mejorar sus aplicaciones con AI.
¿Cómo está el blog de noticias? Tomar esto Encuesta de 1 minuto!
(Este encuesta está alojado por una empresa externa. AWS maneja su información como se describe en el Aviso de privacidad de AWS. AWS será propietario de los datos recopilados a través de esta encuesta y no compartirá la información recopilada con los encuestados).